CD-CAT 中 基于 SCAD 惩罚 和 EM 视角 的 在 线 标 
定 方法 开发 一 一 基于 G-DINA 模型 # 
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摘 要 G-DINA (the generalized deterministic input, noisy and gate) 模 型 限制 条 件 少 ， 应 用 范 
围 广 ， 满 足 大 量 心理 与 教育 评估 测验 数据 的 要 求 。 研 究 提出 一 种 适用 于 G-DINA 等 模型 的 同 
时 标定 新 题 2 矩 阵 与 项 目 参数 的 认 知 诊断 计算 机 化 自 适应 测验 (CD-CAT) 在 线 标 定 新 方法 
SCADOCM， 以 期 促进 CD-CAT 在 实践 中 的 推广 与 应 用 。 本 研究 分 别 基于 模拟 题库 以 及 真实 
让 进行 研究 ， 结 果 表 明 : 相 比 传统 的 SIE 方 法 ，SCADOCM 在 各 实验 条 件 下 均 具 有 较为 理 
想 的 标定 精度 与 标定 效率 ， 应 用 前 景 较 好 ;SIE 方法 不 适用 于 饱和 的 G-DINA 等 模型 ， 其 各 


实验 条 件 下 的 0 和 矩阵 标定 精度 均 较 低 。 
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如 何 高 效 、 准 确 地 为 被 试 提供 其 在 所 测 内 容 上 详细 且 有 价值 的 诊断 信息 以 满 
足 被 试 的 测验 需求 ?” 这 是 近年 来 心理 与 教育 测量 学 研究 者 和 实践 者 都 极为 关注 
的 问题 。 在 心理 评估 中 ， 如 果 测 验 能 快速 、 准 确 、 高 效 地 为 临床 心理 医生 尤其 是 
新 手 医 生 提 供 来 访 者 在 某 一 心理 问题 上 的 具体 症状 表现 , 帮助 临床 医生 更 好 地 理 
解 心理 问题 及 一 些 具 体 症状 之 间 潜 在 的 复杂 关系 , 心理 医生 可 及 时 地 制定 有 效 的 
预防 和 干预 策略 ， 推 进 心理 治疗 进程 (如 , de la Torre et al., 2018; Tan et al., 2023). 
而 在 教育 测评 中 ， 如 果 测 验 能 快速 、 准 确 、 高 效 地 为 教师 提供 学 生 掌握 和 欠缺 的 
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具体 知识 点 , 教师 在 课堂 上 可 以 重点 讲授 学 生 有 待 提高 的 知识 点 , 学 生 也 可 以 针 
对 自己 的 弱项 进行 有 针对 性 的 学 习 ， 从 而 减轻 学 生 负 担 ， 改 进 教 学 ， 提 高 教学 效 
果 ( 如 ，Tang & Zhan, 2021). 


认 知 诊断 计算 机 化 自 适应 测验 (cognitive diagnostic computerized adaptive 
testing，CD-CAT) 正 是 在 这 一 背景 下 产生 ， 它 包含 了 近来 蓬勃 发 展 的 认 知 诊断 
(cognitive diagnosis，CD) 和 计算 机 化 自 适 应 测验 (computerized adaptive testing, 
CAT) 两 种 测量 技术 的 优点 ， 是 实现 以 上 测量 目标 较为 理想 的 选择 (Cheng，2009; 
Lin & Chang, 2019; Xu et al., 2016)。 认 知 诊断 的 迅速 发 展 ， 很 大 程度 上 取决 于 实 
践 中 对 于 形成 性 评估 (formative assessmenb) 的 需求 。 不 同 于 仅 提供 测验 总 分 的 总 
结 性 评估 (summative assessment)， 认 知 诊断 为 每 个 被 试 提供 属性 掌握 模式 ， 该 模 
式 详细 描述 了 被 试 在 所 测 概 念 或 内 容 上 的 掌握 情况 , 可 为 测验 后 的 进一步 补救 干 
预 提供 重要 参考 (de la Torre, 2011; Junker & Sijtsma, 2001). CAT 因 其 量 身 定制 与 
高 效 的 特点 而 备 受 研究 者 与 实践 者 的 青睐 。CAT 根据 每 个 被 试 的 潜在 特质 水 平 
为 其 定制 一 个 测验 ， 被 试 作答 项 目 大 多 都 与 其 潜在 特质 水 平 相 匹配 ， 因 此 CAT 
可 为 被 试 提供 更 为 有 效 且 精确 的 潜在 特质 估计 值 。 而 CD-CAT 同时 具备 CAT 的 
特点 以 及 认 知 诊断 的 功能 , 它 通 过 “量体裁衣 ”的 个 性 化 测验 快速 准确 地 探查 被 试 
在 所 测 内 容 上 的 优势 和 不 足 ， 可 及 时 为 被 试 提供 精细 的 诊断 反馈 信息 , 在 提高 测 
验 结果 准确 性 的 同时 极 大 地 减轻 了 测验 参与 者 的 作答 负担 (Chen et al., 2012; 
Chen et al., 2015; Lin & Chang, 2019; Liu et al., 2013). 这 符合 “ 双 减 ”等 政策 的 精神 
和 要 求 ， 也 较 好 地 满足 了 当前 国家 和 社会 发 展 的 实际 需要 ， 有 利于 促进 精准 、 自 
适应 和 个 性 化 的 心理 与 教育 测评 ， 以 及 考试 的 数字 化 革新 。 

CD-CAT 的 有 效 性 依赖 于 高 质量 的 题库 (item bank)。 然 而 ， 在 CD-CAT 持续 
使 用 一 段 时 间 后 , 题库 中 的 部 分 题目 会 变 得 过 时 或 者 形 失 功 能 , 这 些 题 目 需 及 时 
使 用 新 题 予 以 替换 以 保证 测验 和 题库 的 质量 (Chen et al., 2012; Chen et al., 2015; 
Kang et al., 2020)。 有 具体 而 言 ， 需 要 邀请 经 验 丰富 的 领域 专家 和 心理 测量 学 家 根据 
诊断 目的 编制 新 题 ( 即 待 加 入 题库 但 未 标定 参数 的 题目 ), 然后 估计 新 题 参 数 ， 并 
将 其 与 题库 中 己 有 的 题目 置 于 同一 量 尺 之 上 。 在 线 标定 (online calibration) 技 术 是 
CAT 中 一 种 有 效 的 项 目 增补 方法 , 它 是 指 在 测验 过 程 中 , 让 被 试 同时 作答 新 题 与 
日 题 (题库 中 己 有 的 已 标定 参数 的 题目 ), 并 根据 其 作答 来 标定 新 题 参数 的 过 程 ( 陈 


由 


平 ， 辛 涛 , 2011a)。 除 可 节约 资源 投入 且 相 同 测量 模式 使 得 被 试 作 答 新 题 和 旧 题 的 
动机 相同 这 些 优势 外 , 在 线 标 定 的 另 一 重要 优势 是 无 需 复杂 的 等 值 技术 以 用 于 解 
决 大 型 题库 构建 时 所 面临 的 测验 等 值 等 具有 挑战 性 的 难题 (Chen & Wang, 2015; 
Chen et al.，2012)。 至 今 为 止 , 在 单 维 计算 机 化 自 适应 测验 (unidimensional CAT, 
UCAT) 以 及 多 维 计算 机 化 自 适 应 测验 (multidimensional CAT，MCAT) 领 域 中 , Wt 
究 者 已 提出 了 多 种 高 效 的 在 线 标定 方法 ,如 , 方法 A (Method A; Stocking, 1988)、 

一 个 EM 循环 的 边际 极 大 似 然 估计 方法 (marginal maximum likelihood estimate 
with one EM cycle, OEM; Wainer & Mislevy, 1990)、 多 个 EM 循环 的 边际 极 大 似 然 


估计 方法 marginal maximum likelihood estimate with multiple EM cycles, MEM; 


Ban et al., 2001), FFMLE-Method A 方法 ( 陈 平 , 2016). M-Method A 方法 (Chen et al., 


2017). M-MEM-BME 方法 (Chen, 2017) 等 。 
CD-CAT 中 可 使 用 在 线 标定 技术 标定 新 题 的 参数 ， 但 有 一 个 问题 值得 思考 ， 
即 认 知 诊断 测验 中 是 否 需要 进行 等 值 , 是 否 有 必要 使 用 在 线 标定 技术 对 新 题 进行 
标定 ? de la Torre 和 Lee (2010) 在 研究 中 指出 当 模 型 与 数据 完全 拟 合 时 ， 决 定型 
输入 噪音 与 门 (the deterministic input, noisy and gate, DINA; Junker & Sijtsma, 2001) 
模型 的 项 目 参数 具有 不 变性 ; Bradshaw 和 Madsion (2015), Madsion 和 Bradshaw 
(2018) 也 在 其 研究 中 指出 对 数 线 性 认 知 诊断 模型 (log-linear cognitive diagnosis 
model CDM, LCDM; Henson et al., 2009) 和 基于 LCDM 模型 开发 的 TDCM (the 
Transition Diagnostic Classification Model) 在 模型 与 数据 拟 合 的 情况 下 参数 具有 不 
变性 。 在 此 条 件 下 ， 无 需 通 过 等 值 来 保证 被 试 参数 估计 值 在 同一 量 尺 上 。 然 而 ， 
其 研究 也 指出 在 模型 与 数据 不 完全 拟 合 时 ， 难 以 观察 到 参数 不 变性 ; 且 即 使 模型 
与 数据 拟 合 的 情况 下 ， 参 数 不 变性 也 会 随 着 标定 样本 的 减少 而 减弱 (Bradshaw & 
Madsion, 2015; de la Torre & Lee, 2010; Madsion & Bradshaw, 2018)。 这 表明 参数 
不 变性 成 立 需 满足 一 些 必 备 的 条 件 : 如 模型 与 数据 完全 拟 合 , 标定 样本 量 足 够 大 
(如 不 少 于 1000)， 在 这 些 条 件 下 可 以 不 进行 等 值 。 但 在 实际 测验 情境 中 ， 模 型 与 
数据 完全 拟 合 的 情况 并 不 总 能 得 到 满足 , 且 在 同一 次 测验 中 也 较 难 获得 足够 大 的 
标定 样本 ， 这 都 会 导致 项 目 参 数 估计 出 现 偏差 ， 影 响 被 试 的 分 类 准确 性 和 O B 
阵 的 标定 正确 性 。 因 此 ， 在 CD-CAT 题库 建设 中 有 必要 进行 在 线 标定 ， 这 有 利 
于 降低 项 目 参 数 估计 偏差 等 所 带 来 的 影响 ， 提 高 CD-CAT 题库 和 测验 的 质量 。 


ul 


HH, CD-CAT 中 有 关 在 线 标定 方法 的 研究 仍然 较为 薄弱 ,而且 不 同 于 
UCAT 和 MCAT，CD-CAT 中 标定 新 题 时 不 仅 需要 考虑 新 题 项 目 参 数 的 标定 ， 还 
需 考虑 新 题 O EERE. O 和 矩阵 作为 认 知 诊断 的 核心 成 分 ， 在 大 多 数 情 况 下 
是 未 知 的 。 在 实际 测验 中 ，0Q 矩阵 一 般 由 领域 专家 和 心理 测量 学 专家 共同 界定 ， 
需要 耗费 大 量 的 人 力 和 物力 资源 。 另 外 ， 由 专家 界定 的 Q 矩阵 容易 受 专家 主观 
因素 的 影响 造成 错误 界定 ， 而 2 珑 阵 的 错误 界定 最 终 影 响 项 目 参数 估计 精度 和 
被 试 分 类 准确 性 (de la Torre & Chiu, 2016; Rupp & Templin, 2008)。 因 此 ， 新 题 O 
AE PETER XE RE CD-CAT 中 标定 新 题 时 不 容 忽视 的 一 个 方面 。 

截至 目前 ， 己 有 部 分 研究 对 CD-CAT 中 新 题 O 矩阵 与 项 目 参 数 的 同时 标定 
进行 了 探索 。 例 如 ， 陈 平和 辛 涛 (2011b) 提 出 的 联合 估计 算法 (joint estimation 
algorithm, JEA), Chen 等 人 (2015) 提 出 的 SIE (single-item estimation) 7X, H $3 A 
SE A (2021) $e HH AY SE FY fei 19 a (E ZG bk RE 7] iX (Information Gain of 
Entropy-based Online Calibration Method, IGEOCM), UJ Tan 等 人 (2022) 提 出 的 
基于 基尼 的 方法 (the Gini-based method) 等 均 为 同时 标定 新 题 O XB EE; H 280 
的 在 线 标定 方法 。 已 有 研究 表明 JEA、SIE、IGEOCM 和 基于 基尼 的 方法 等 在 
DINA 模型 下 具有 较为 理想 的 项 目标 定 精度 ， 但 在 其 它 模 型 尤其 是 适用 面 更 广 、 
限制 条 件 非常 少 的 饱和 认 知 诊断 模型 (如 拓 广 的 DINA US, BD G-DINA; de la 
Torre, 2011) 下 的 性 能 仍 有 待 进一步 考察 。 

相 比 于 DINA 模型 ，G-DINA 等 模型 因 限制 条 件 少 而 有 着 更 广 的 适用 范围 ， 
能 满足 心理 与 教育 评估 中 多 数 测验 数据 的 要 求 (de la Torre, 2011; de la Torre et al., 
2018; Tu et al., 2017; Xi et al., 2020)， 在 实践 研究 中 的 应 用 日 益 广泛 。 如 心理 临床 
诊断 评估 中 , 只 要 被 试 符合 心理 障碍 诊断 标准 中 的 部 分 症状 便 可 实现 对 被 试 的 临 
床 诊 断 , 以 网 络 成 瘾 为 例 ,《 精 神 障 碍 诊断 与 统计 手册 》 第 五 版 (the 5" edition of the 
diagnostic and statistical manual of mental disorders, DSM-V) 中 界定 了 网 络 成 疗 的 
9 条 症状 标准 ， 被 试 符合 其 中 5 条 及 5 条 以 上 症状 可 诊断 为 网 络 成 疗 。 此 时 ， 
DINA 模型 显然 不 适用 于 此 类 测验 ， 它 假定 被 试 在 项 目 上 的 作答 只 受到 项 目测 量 
的 所 有 属性 的 交互 作用 影响 ， 而 不 受 主 效应 及 其 它 类 型 的 交互 作用 的 影响 。 如 果 
强行 使 用 该 模型 来 分 析 整 个 测验 可 能 导致 数据 与 所 用 模型 的 不 适 配 , 继而 影响 诊 
断 结 果 的 可 信 性 和 精确 性 (Hou, 2013)。 而 G-DINA 模型 则 没有 这 些 严 格 的 假设 ， 


认为 被 试 的 作答 可 以 是 由 项 目测 量 的 各 属性 的 主 效应 与 各 种 类 型 的 交互 效应 的 
共同 影响 ,如 果 主 效应 (或 交互 效应 ) 的 系数 估计 值 为 0 或 接近 0, 则 此 时 主 效应 (或 
交互 效应 ) 的 作用 不 明显 , 即 此 时 不 存在 主 效应 (或 交互 效应 ), 但 若 系数 显著 不 为 
0， 则 说 明 存在 主 效应 (或 交互 效应 )， 因 此 G-DINA 模型 更 为 灵活 ， 更 适合 该 类 
测验 。 

然而 ， 及 至 目前 尚未 有 公开 发 表 的 期 刊 文章 研究 应 用 于 限制 条 件 少 的 
G-DINA 等 模型 的 O 4B [E 5; D H 2228 [8] SE PE TE Z b 7715, 这 在 一 定 程度 上 限制 
了 CD-CAT 在 实践 中 的 应 用 范围 ,阻碍 了 CD-CAT 在 实际 测验 中 的 进一步 推广 。 
鉴于 此 , 研究 拟 引 入 数据 挖掘 中 SCAD (smoothly clipped absolute deviation penalty, 
SCAD; Fan & Li, 2001) 方 法 选择 特征 的 思路 提出 一 种 适用 于 G-DINA 等 模型 的 O 
矩阵 与 项 目 参数 同时 性 在 线 标定 方法 ， 旨 在 为 CD-CAT 在 实践 中 的 进一步 推广 
与 应 用 提供 高 效 准 确 的 方法 学 支持 。 


2 G-DINA 模 型 及 SIE 方 法 简介 


2.1 G-DINA 模型 


已 有 认 知 诊断 模型 中 ， 基 于 DNA 模型 拓展 而 来 的 G-DINA 模型 是 一 个 限 
制 条 件 少 ， 应 用 范围 更 广 的 模型 ， 符 合 大 量 心 理 与 教育 评估 测验 数据 的 要 求 ， 在 
实践 中 所 受到 的 重视 日 益 增加 , 越 来 越 多 的 研究 者 基于 G-DINA 模型 开发 认 知 诊 
断 测验 (如 ,de la Torre et al., 2018; Tu et al., 2017; Xi et al., 2020)。 故 研究 在 
G-DINA 模型 框架 下 介绍 新 的 在 线 标定 方法 并 对 其 进行 验证 , 该 新 方法 同样 可 以 
应 用 于 其 它 认 知 诊断 模型 。 

令 测验 测量 的 属性 个 数 为 KK，g; = (Qu dix) 为 项 目 j 的 g 向 量 ， 是 测验 O 


矩阵 的 第 7 行 , 若 被 试 正确 作答 项 目 7 需 要 掌握 第 上 个 属性 , qx 二 1, 否则 qx 二 0; 


区 表示 被 试 ;在 项 目 上 的 作答 ; a= (011,002, ,ao 表示 第 c 类 属性 掌握 模式 ， 


其 中 au 表示 第 c 类 属性 掌握 模式 下 的 被 试 是 否 掌握 第 个 属性 ， 若 掌握 了 第 大 


个 属性 ，aw=1， 和 否则 ax —0. G-DINA 模型 认为 属性 掌握 模式 不 同 的 被 试 在 项 


目 上 的 正确 作答 概率 并 不 一 致 , 将 被 试 分 为 2” 个 类 别 , 其 25 gw 表示 项 


目 j 测 量 的 属性 个 数 。 根 据 所 用 链接 函数 的 不 同 ，G-DINA 模型 有 不 同 的 数学 表 
达 式 ， 其 中 最 为 常用 的 链接 函数 为 对 数 链接 函数 (log link function). logit 链接 函 
数 (logit link functiom 和 一 致 性 链接 函数 (identity link function). 而 一 致 性 连接 函数 
下 的 G-DINA 模型 ， 是 G-DINA 模型 更 为 一 般 化 的 形式 (de la Torre, 2011)， 其 数 
学 表达 式 可 写 为 : 


P(a;;) P(X; llo; ) bo + 0 + J ptus Te “+ bin. Kj [Jos € 


k'=k+1 k-l 


ERT, aj 表示 基于 项 目 / 所 测量 属性 的 缩减 属性 掌握 模式 ， 其 中 


c=1,2, = 。 人 例如， 测验 共 测 量 3 个 属性 ， 项 目 j 测量 了 测验 的 前 两 个 属性 


q;— (1,1,0), WK;—2, o5 ((0,0),0,0),(0, 1),(1, 1))”; 6jo 表 示 项 目 j 的 截 
距 参 数 ， 也 称 之 为 基线 概率 ， 指 被 试 未 掌握 项 目 j 测量 的 所 有 属性 但 在 该 项 目 上 
作答 正确 的 概率 ， 其 为 非 负 值 ， 人 多 表示 项 目 上 属性 上 的 主 效应 ， 指 被 试 掌握 属 
性 上 对 被 试 正 确 作 答 该 项 目 概率 的 增加 效应 ， 一 般 取 非 负 值 ， 值 越 大 说 明 掌 握 该 
属性 对 于 正确 作答 该 项 目的 页 献 越 大 ; bj 表示 项 目 i 上 属性 k 和 k' 的 交互 效应 ， 


0j12.…K; 是 所 有 属性 的 交互 效应 ,文中 使 用 56; 表示 项 目 j 的 项 目 参 数 向 量 , G-DINA 


pire, = (655,65, ej bj12, 05K; ndo» 652) o 


22 SIE 方法 


CD-CAT POA ES [s] SE s E e ORB [e E5 D H 828 EZ 1 Be IEA ( 陈 
^P, 3E, 2011b). SIE (Chen et al., 2015). IGEOCM (HER 等 , 2021) 和 基于 基 
尼 的 方法 (Tan et al., 2022) 等 。 其 中 ，JEA 方 法 在 项 目 质量 高 且 样 本 量 大 时 具有 较 
高 的 项 目标 定 精 度 , 但 其 在 项 目 质量 较 低 时 的 项 目标 定 精度 仍 有 待 于 进一步 提高 。 
而 实际 测验 题库 中 ， 可 能 既 包含 了 质量 高 的 项 目 ， 也 包含 了 质量 低 的 项 目 。 如 
Liu 等 人 (2013) 开 发 的 中 国 大 型 英语 二 级 测验 题库 ， 其 项 目 失误 参数 (被 试 掌握 了 
项 目测 量 的 所 有 属性 但 错误 作答 该 项 目的 概率 ) 的 范围 在 0.001 到 0.5 之 间 。 在 新 题 


HERBIR, EE TEA TT IER ce HUE. PL AES BCH LY ER FR REIS, M 
而 影响 整个 题库 以 及 测验 的 质量 。 另 外 ,理论 上 IGEOCM 和 基于 基尼 的 方法 可 用 
于 DINA 模 型 外 的 其 它 认 知 诊断 模型 , 但 该 类 方法 受 被 斌 类别 数 量 的 影响 , DINA 
模型 在 每 个 项 目 上 均 将 被 试 区 分 为 两 个 类 别 ， 而 G-DINA 模 型 在 每 个 项 目 上 将 被 
试 区 分 为 24 (KK 表示 项 目测 量 的 属性 个 数 ) 个 类 别 , 其 在 G-DINA 等 模型 下 的 性 外 
可 能 并 不 理想 。 如 G-DINA 等 模型 下 , 被 试 类 别 随 项 目测 量 属性 个 数 的 增加 而 增 
加 ， 而 灼 信息 增益 指标 会 随 着 被 试 类 别 的 增加 而 增加 ( 李 航 ,2012)。 因 此 ， 在 
G-DINA 等 模型 下 使 用 IGEOCM 方 法 标定 新 题 q 向 量 , 可 能 出 现 属性 指定 过 多 的 
情况 。 基 于 以 上 分 析 ， 文 中 仅 详 细 介 绍 SIE 方 法 ， 并 将 其 与 新 方法 进行 比较 。 
SIE 方法 基于 DINA 模型 提出 ， 其 在 标定 新 题 时 考虑 了 被 试 属性 掌握 模式 的 
估计 误差 ， 标 定 新 题 O 矩阵 和 项 目 参数 时 充分 利用 被 试 的 属性 掌握 模式 后 验 分 
布 (Chen et al., 2015). SIE 方法 标定 新 题 时 包含 了 O 矩阵 标定 和 项 目 参数 标定 两 
个 部 分 。 对 于 新 题 O 矩阵 的 标定 ， 首 先 基于 被 试 在 旧 题 上 的 作答 计算 作答 了 新 
题 j 的 被 试 的 属性 掌握 模式 后 验 分 布 。 随 后 ， 根 据 被 试 属性 掌握 模式 后 验 分 布 及 
每 种 属性 掌握 模式 在 q HENG KIEJ 上 的 正确 作答 概率 计算 具有 某 一 特定 作 


CC 


答 Ry 的 被 试 i 的 后 验 预测 分 布 : 


m 
P(q;,0;) = P(Ry =114;,5;) = So tia.) P(gq;, ða), (2) 
c=1 


HERRI HSA E, DNA 模型 下 包含 失误 参数 s; 和 猜测 参数 g 


P(qai6jla) 表 示 属 性 掌握 模式 为 ae 的 被 试 在 新 题 / 上 的 正确 作答 概率 ; rla) K 


示 作 管 了 新 题 j 的 被 试 i 的 属性 掌握 模式 为 a 的 后 验 概率 ， 基 于 被 试 i 在 O 个旧 


题 上 的 作 管 (DU.i 二 1,2,…n) 计 算 获得 : 


O 
7(o.) lI P (q,,,]o..) “人 = P(q., 6,10. ) | poe 
Tyla) = 7K ET 


O 
Sr(a) [ [Pla dle.) (1 — P(q,,6,la.)]"” 
o=l 


c=1 


, (3) 


上 式 中 ，x(aw) 表 示 属 性 掌握 模式 为 Qa 的 先 验 概率 ，P(g,,6。|a) 表 示 属 性 掌握 模 


WA a, MBCA EIB SE o 上 的 正确 作答 概率 ， 玫 表示 被 试 ? 在 旧 题 o 上 的 作答 。 


最 后 ， 结 合 被 试 后 验 预 测 分 布 及 其 在 新 题 7 上 的 作答 有 构建 似 然 并 最 大 化 
似 然 函 数 来 估计 新 题 的 4 向 量 ， 其 表达 式 如 下 : 


d;— argmax L(q; ,0) = Brem 位 P(q;,6;) “U — P(g;,6))] vat (4) 
9; € Q; 9; € Q; 


$—1 


EP, Q 表示 新 题 /所 有 2x 一 1 种 可 能 g 向 量 的 集合 。 此 外 ，SIE 方 法 使 用 EM 算法 
来 估计 新 题 的 项 目 参数 。 

需 注意 的 是 ，DINA 模型 下 使 用 SIE 方法 标定 新 题 时 对 于 任 一 的 项 目 参数 估 
计 值 , 需 将 新 题 的 所 有 可 能 q 向 量 代入 似 然 函 数 以 计算 所 有 可 能 q 向 量 所 对 应 的 
似 然 值 , 在 此 基础 上 标定 新 题 的 g 向 量 与 项 目 参数 这 在 DINA 模型 下 是 可 行 的 ， 
因为 该 模型 下 项 目 参数 的 个 数 不 随 项 目 所 测 属 性 个 数 的 变化 而 发 生变 化 , RE q 
向 量 所 对 应 的 项 目 参数 个 数 均 为 2， 也 即 失 误 参 数 和 猜测 参数 。 但 这 在 G-DINA 
模型 下 是 难以 实现 的 , 因为 该 模型 下 项 目 参数 的 个 数 随 项 目 所 测 属 性 个 数 的 变化 
而 变化 ， 不 同 q 向 量 所 对 应 的 项 目 参数 个 数 可 能 不 同 。 如 项 目测 量 2 个 属性 时 ， 
项 目 参数 的 个 数 为 4， 而 项 目测 量 3 个 属性 时 ， 项 目 参数 的 个 数 为 8。 因 此， 将 
SIE 方法 从 DINA 模型 拓展 到 G-DINA 模型 时 ,对 于 根据 某 一 g 向 量 估计 的 项 目 
参数 估计 值 ， 仅 结合 该 项 目 参 数 估计 值 及 其 对 应 的 g 向 量 计算 一 个 似 然 值 。 如 ， 
基于 gj = [10010] 估 计 的 项 目 参 数值 , 仅 将 其 与 q) = [10010] 结 合计 算 似 然 值 , 而 


不 与 qj; 二 [10011] 等 可 能 的 项 目 ¢ 向 量 结合 来 计算 似 然 值 。 对 于 新 题记 的 所 有 可 
能 q 向 量 及 其 各 自 对 应 的 项 目 参 数 估计 值 , 均 可 以 计算 一 个 似 然 值 。 若 新 题 的 可 
能 q 向 量 个 数 为 8， 则 可 以 计算 8 个 似 然 值 ， 选 择 最 大 似 然 值 对 应 的 9 向 量 与 项 
目 参 数 作为 新 题 的 ¢ 向 量 与 项 目 参 数 估计 值 。 除 此 之 外 ，G-DINA 模型 下 使 用 
SIE 方法 标定 新 题 时 的 步骤 均 与 DINA 模型 一 致 。 


3 基于 SCAD 的 在 线 标定 方法 (SCADOCMD 开 发 


3.1 SCADOCM 开发 的 基本 思想 


目前 ， 数 据 挖掘 中 多 数 方法 都 围绕 正则 化 方法 进行 ,正则 化 方法 是 系数 收缩 
方法 的 一 种 , 通过 压缩 特征 系数 来 达到 特征 选择 的 目的 , 已 成 为 一 种 主流 的 特征 
选择 方法 。 正 则 化 方法 基于 惩罚 的 思想 , 在 目标 函数 上 增加 一 个 惩罚 项 ,使 得 新 
目标 函数 最 小 化 以 选择 重要 特征 。SCAD 惩罚 是 一 种 正则 化 方法 ,其 在 特征 选择 
上 具有 良好 的 性 能 (Fan & Li, 2001)。 为 简化 表达 ,将 SCAD 惩罚 称 为 SCAD， 基 
于 SCAD 的 对 数 似 然 函数 可 表示 为 : 


SCAD(B) —1(8) =n) Plea), (5) 


其 中 , 1(B) 表 示 基 于 特征 构建 的 回归 方程 的 对 数 似 然 函数 ,车 基于 特征 构建 的 回 
JAA logistic 回归 ， 则 其 对 数 似 然 函 数 可 表示 为 : 


TL 


I(B) = X LR? B) — log (1+ exp (D7 8))], (6) 


1 一 1 


其 中 表示 被 试 人 数 ，R; 表 示 被 试 i 在 因 变量 R 上 的 作答 ，D? 表示 被 试 i 在 自 


变量 向 量 集 D 上 的 作答 向 量 的 转 置 ，B 表示 回归 系数 向 量 。 


n 》 px(|B,|) 为 对 数 似 然 函 数 的 惩罚 项 ， 到 为 自 变量 向 量 D AEB, DOW 


惩罚 函数 ， 其 形式 构造 如 下 : 


AIB), iBl <r 
IBI? —2aAIBI +A? 
p(B!) = aep. c 6094 SA (7) 
e Bl >a) 


uo 和 为 SCAD 函数 中 需 定义 数值 的 两 个 参数 。Fan 和 Li (2001) & iX 


a=2+ V3 =3.7> 该 值 在 各 种 特征 选择 问题 中 都 表现 出 较 好 的 性 能 。 是 一 个 调 


3 SS FN (tuning parameter), 极 大 程度 地 影响 SCAD 方法 的 性 能 (Fan & Li, 2001; Fan 


& Lv, 2010; Fan & Tang, 2013; Zhang et al., 2010). Fan 和 Li (2001) 建 议和 = 0.7 , 


研究 者 也 提出 了 不 同 的 参数 选择 方法 , 如 GCY 准则 、AIC 准则 和 BIC 准则 等 。 


BIC 准则 是 较为 常用 的 参数 选择 方法 (Wang et ab, 2007; Zhang et al, 2010). 


SCAD 对 数 似 然 函数 第 一 项 表示 模型 拟 合 , 值 越 小 模型 拟 合 越 好 ; 第 二 项 是 对 模 
型 中 所 包含 的 自 变量 个 数 ( 模 型 复杂 度 ) 的 惩罚 ， 较 好 地 体现 了 模型 拟 合 与 复杂 性 
的 权衡 。 基 于 SCAD 的 似 然 函数 可 使 用 局 部 二 次 逼近 算法 (local quadratic 


approximations, LQA) 来 估计 应 (Fan & Li, 2001). LQA 算法 的 特征 在 于 把 收敛 于 0 
的 回归 系数 估计 为 0， 从 而 达到 简化 模型 ， 提 高 运算 效率 的 目的 。 

新 题 j 的 q 疝 量 估 计 可 视 为 一 个 特征 选择 问题 , 将 测验 测量 的 所 有 属性 作为 
待 选择 的 特征 ， 从 所 有 测验 属性 中 选择 重要 属性 作为 新 题 j 的 测验 属性 ， 构 建 q 
癌 量 (g 癌 量 中 新 题 j 的 测验 属性 标记 为 1， 其 它 属 性 标记 为 0)。 若 项 目 j 测量 
某 几 个 属性 , 则 在 这 些 属性 上 掌握 概率 更 高 的 被 试 正 确 作答 项 目 7 的 可 能 性 更 大 ， 
而 在 这 些 属 性 上 掌握 概率 更 低 的 被 试 正确 作答 项 目 j 的 可 能 性 更 小 。 因 此 ， 某 一 
属性 的 被 试 掌握 概率 对 被 试 正 确 作 答 的 影响 越 大 , 说 明 该 属性 对 于 项 目 来 说 越 重 
要 ,反之 若 某 一 属性 的 被 试 掌握 概率 对 被 试 正 确 作答 的 影响 可 忽略 不 计 ， 则 说 明 
项 目 可 能 未 测量 该 属性 。 将 被 试 在 新 题 ;/ 上 的 作答 数据 R 视 为 因 变 量 , 被 试 在 每 
个 测验 属性 上 的 掌握 情况 视 为 自 变 量 ( 待 选 特征 ) 构 建 SCAD 对 数 似 然 函数 ,然后 
最 小 化 该 目标 函数 以 选择 新 题记 的 测验 属性 ， 构 建新 题 gq 向 量 。 基 于 该 思路 ， 本 
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SCADOCM)， 该 方法 使 用 SCAD 方法 标定 新 题 的 CO 和 矩阵， 随后 使 用 EM 算法 标 
定 新 题 的 项 目 参 数 。SCADOCM 标定 新 题 O 矩阵 与 项 目 参 数 的 计算 公式 及 其 过 
程 详 细 介绍 如 下 。 


3.2 SCADOCM 中 Q 逢 阵 与 项 目 参数 标定 的 算法 设计 


本 节 将 详细 说 明 如 何 使 用 SCADOCM 来 估计 新 题 的 g 向 量 与 项 目 参 数 。 
对 于 新 题 q 向 量 的 估计 ，, 首先 将 新 题 的 g 向 量 估计 视 为 一 个 特征 选择 问题 , 然后 
通过 SCAD 构造 一 个 有 效 可 行 的 估计 量 。 在 认 知 诊断 中 ,被 试 对 新 题记 的 回答 取 
决 于 他 们 对 属性 的 掌握 程度 。 一 般 来 说 ， 掌 握 新 题 j 所 测量 属性 的 被 试 ， 正 确 作 
答 新 题 / 的 概率 更 高 。 反 之 ， 如 果 掌 握 了 第 个 属性 的 被 试 在 新 题 / 上 具有 更 高 
的 正确 作 管 概率 ， 那 么 新 题 j 极 有 可 能 测量 了 属性 k。 那 么 如 何 才 能 从 测验 测量 
的 所 有 属性 中 选择 显著 影响 被 试 正确 作答 该 题 的 属性 呢 ? SCAD 方法 作为 一 种 
有 具 有 众多 优良 特性 的 特征 选择 方法 ， 是 一 种 可 行 的 解决 方案 。 


基于 测验 测量 属性 以 及 被 试 在 新 题 上 的 作答 使 用 SCAD 方法 标定 新 题 O FE 
阵 ， 首 先 需 构建 属性 与 被 试 作答 间 的 回归 模型 。 这 一步 的 关键 是 找到 合适 的 指标 
来 描述 考生 对 属性 的 掌握 程度 。 被 试 在 测验 所 测 属性 上 的 边际 掌握 概率 可 基于 
CD-CAT 过 程 中 被 试 对 旧 题 的 作答 估计 获得 , 该 指标 较 好 地 体现 了 被 试 对 于 属性 
的 掌握 程度 。 被 试 在 茶 个 属性 上 的 边际 掌握 概率 越 高 ， 则 被 试 掌握 该 属性 的 概率 
越 大 。 此 外 ， 被 试 在 新 题 上 的 作答 服从 伯 努 利 分 布 。 因 此 ， 对 于 新 题 j， 基 于 
被 试 在 所 测 属性 上 的 边际 掌握 概率 及 其 在 项 目 上 的 作答 ， 可 构建 如 下 logistic E 
归 横 型 ; 


—= 


exp CD" p) ; 
1+ exp( D? 8)' e 


其 中 , D ACA K x n; BD PE RERE, BRAA/DAK XR 
B E E A AACA E o 
随后 ， 可 基于 该 回归 方程 构建 对 数 似 然 函 数 ， 其 公式 可 表达 如 下 : 


P(R,—1|D) = 


— 


n; 


I(B) = > [R,(D7 B) — log (1+ exp D? 8))]. (9) 


t=1 


其 中 Rj 表示 被 试 i 在 新 题 了 上 的 作答 。 在 公式 (9) 上 增加 SCAD， 则 可 构建 基于 


SCAD 的 对 数 似 然 函 数 如 下 : 


SCAD(B) =1(8) — n; X Palb), (10) 


其 中 p(B|) 如 公式 (7) 所 示 , 本 研究 采用 建议 的 ce=2+V3=3.7 (Fan & Li, 2001), 


使 用 BIC 准则 选择 ,参数 。 对 于 某 一 给 定 \ 值 ，BIC 指标 可 计算 如 下 : 


BICQ) =- 21(&.) + Iv,llog (n), (1) 


其 中 心 = 《k: Bs 大 0)》 表 示 不 包含 截 距 项 的 活动 集 ，|w| 表 示 该 活动 集 的 大 小 。 


最 后 ， 基 于 BIC 准则 选择 的 ,参数 ， 最 小 化 公式 (10) 可 获得 BB 的 估计 值 ， 其 
表达 式 为 : 


^ 


B= argmin SCAD (B). (12) 
B 


7i B,--0, Wire ; 测量 了 属性 k. 例如 ，K=5， 启 中 的 第 一 个 元 素 和 第 四 个 元 素 


为 非 0 系数 ， 则 新 题 7 的 q 向 量 为 gj = [10010] 。 若 对 于 BIC 准则 所 选择 的 ,参数 
出 现 启 = 0, 则 选择 参数 取 最 小 值 时 所 获得 的 回归 系数 佑 计 值 中 最 大 回归 系数 所 


对 应 的 属性 作为 新 题 j 的 测验 属 


—= 


生 以 确保 新 题 j BZD — 1 Js Vb MBBS BUR 


区 间 参 考 Breheny 和 Huang (2011) 研 究 所 提 方 法 。 

SCADOCM 中 ， 在 使 用 SCAD 方法 标定 新 题 的 q 向 量 之 后 ， 需 要 根据 该 9 
向 量 来 估计 其 项 目 参数 ,具体 为 采用 EM 算法 来 估计 新 题 的 项 目 参 数 (Chen et al., 
2015)。 在 E 步 中 , 首先 基于 被 试 i 在 新 题 j 上 的 作答 Rj; 计算 每 个 被 试 的 后 验 分 
布 ， 其 公式 如 下 : 


Post,(a.) = max) P(g a.) "D Phasa) ™ | 
Y a) P(as do.) ll P(a,]o.)] 
c-l 


(13) 


然后 , EF nj Woo ans E BA TEASE E R PIRE CONUS TE SE IE CLIE 
验 分 布 , 假设 个 被 试 在 新 题 j 上 的 作答 彼此 独立 , 可 构建 对 数 边际 似 然 函数 如 
F: 


L(g;,6;) = ] [> Postla) [ (In P (q;,0,a..)) T (1— R;)In(1— P(g;,6a.))]. (14) 


M 步 最 大 化 公式 (14) 以 估计 新 题 的 项 目 参数 6; EM SERGE E all 
M 步 直到 满足 预先 设 定 的 收 和 敛 标准 。 


3.3 SCADOCM 下 0 抢 阵 与 项 目 参 数 同时 标定 的 基本 步骤 


SCADOCM 同时 标定 新 题 O 矩阵 和 项 目 参 数 的 具体 步骤 如 下 : 
步骤 1: 新 题 g 向 量 估计 。 对 于 新 题 )， 基 于 作答 了 新 题记 的 被 试 在 每 个 属性 
上 的 边际 掌握 概率 及 其 在 新 题 / 上 的 作答 数据 , 构建 基于 SCAD 的 对 数 似 然 函 数 


SCAD(B)， 求 解 SCAD(B) 以 获得 新 题记 的 估计 q 向 量 。 


—= 


步 又 2: 新 题 项 目 参 数 估 计 。 将 步骤 1 中 的 估计 9 向 量 作为 新 题记 的 真实 q 
向 量 , 基于 作答 了 新 题 7 的 被 试 的 属性 掌握 模式 后 验 分 布 及 其 在 新 题 7 上 的 作答 ， 
使 用 SCADOCM 中 项 目 参 数 估计 方法 估计 新 题 的 项 目 参数 。 新 题 / 标定 完成 。 

步骤 3: 对 于 所 有 待 标定 的 其 他 新 题 ， 重 复 步 骤 1 和 步骤 2 可 获得 新 题 的 O 


和 矩阵 估计 值 和 项 目 参 数 估计 值 。 直 到 所 有 新 题 标 定 完成 则 终止。 


4 研究 1: 模拟 题库 下 SCADOCM 的 性 能 验证 及 与 SIE 方 法 的 比较 研 
完 


研究 1 上 则 在 考查 模拟 题库 下 SCADOCM 在 不 同 标定 样本 (50、100、500、1000、 
2000)、 属 性 掌握 模式 分 布 (均匀 分 布 、 高 阶 分 布 、 多 元 正 态 分 布 ) 和 项 目 质量 (高 
质量 : PO (未 掌握 项 目 j 所 测量 的 任 一 属性 的 被 试 在 项 目 } 上 的 答对 概率 ) 和 1- 
PQ) (掌握 项 目 7 所 测量 的 所 有 属性 的 被 试 在 项 目 j 上 的 答对 概率 ) 从 
U(0.05, 0.15) 中 随机 抽取 ;， 低 质量 : PA0) 和 1-PA(1) 从 UV(0.1,0.3) 中 随机 抽取 ) 下 
标定 新 题 的 效果 ,并 将 其 与 SIE 方法 进行 比较 。 标 定 样本 指 作答 了 新 题 j 的 被 试 
人 数 , 本 文采 用 陈 平和 辛 涛 (2011b) 及 Chen 等 人 (2015) 的 设 定 方式 即 nj= (NxZ)/m, 
其 中 N 为 参与 CD-CAT 的 被 试 总 人 数 , Z 为 每 个 被 试 作答 新 题 的 个 数 , m 为 待 标定 
的 新 题 个 数 。 本 研究 共 包 含 5 (标定 样本 )x3 (属性 掌握 模式 分 布 )x2 (项 目 质量 )=30 
种 模拟 实验 条 件 , 每 种 实验 条 件 重复 实验 100 次 以 减少 随机 误差 。 


4.1 数据 生成 


4.1.1 被 试 属性 掌握 模式 生成 与 题库 生成 


标定 样本 共 5 个 水 平 ,n= 50, 100, 500, 1000 和 2000, 被 试 属性 掌握 模式 分 别 
从 均匀 分 布 、 高 阶 分 布 和 多 元 正 态 分 布 MVNO, >) 中 产生 。 在 均匀 分 布 中 , 被 试 
的 属性 掌握 模式 从 所 有 可 能 的 属性 掌握 模式 中 以 均匀 的 概率 产生 ; 在 高 阶 分 布 
中 , 被 试 i 是否 掌握 第 个 属性 与 被 试 i 的 一 般 潜 在 能 力 0; 有 关 ， 能 力 为 0; 的 被 
试 i 掌握 第 k 个 属性 的 概率 为 


P(ajy = 1|0i, for, Ark) = 


exp(A1k0 i Aok) 
1rexp(A4ik0 it ÀAok)" 


(15) 
EH, Af X14 为 结构 参数 ， 研 究 中 设置 Kk=5， 和 0=(-1, 一 0.5, 0, 0.5, 1)， 且 对 所 
AVE RISA M= 1.5, 被 试 i 的 能 力 值 从 NN (0, 1) 中 产生 (de la Torre & Chiu, 2016). 
在 0-1 之 间 生 成 一 个 随机 数 , 将 基于 上 式 (公式 15) 计 算 的 概率 值 与 随机 数 进行 比 


Bl, 若 概 率 值 大 于 随机 数 , 被 试 ? 掌 握 属 性 k, au =1, BURA i REJER k, 


air = 0 (Ma & de la Torre, 2020); 在 多 元 正 态 分 布 中 ， 属 性 间 的 相关 设置 为 0.5 (J. 


Chen, 2017; Chiu, 2013)。 假 设 被 试 i 的 能 力 向 量 为 8, 二 (Oi, Vue) MAEA TAY 


属性 掌握 模式 w = (ow,…,aig) 可 通过 以 下 公式 获得 (Chiu, 2013): 


| if $e») | T. 
0 otherwise 
Kp e A Ed) p ES S BEI BR C 
EERBARE BE PI A AI BH AE je PH EL 3007 fH , 
个 题目 最 多 测量 3 个 属性 ， 且 题库 中 测量 1、2 和 3 个 属性 的 项 目 均 设 置 为 100 题 。 
测验 测量 属性 的 总 个 数 K = 5, 则 共有 31 种 可 能 的 项 目 g 向 量 , 其 中 测量 1 个 属性 
的 项 目 q 同 量 个 数 为 5, 测量 2 个 属性 的 项 目 q 疝 量 个 数 为 10, 测量 3 个 属性 的 项 目 q 
向 量 个 数 也 为 10。 将 测量 1 个 属性 的 5 个 项 目 g 向 量 重复 20 次 , 测量 2 个 属性 的 10 个 
项 目 g 向 量 重复 10 次 , 测量 3 个 属性 的 10 个 项 目 g 向 量 重 复 10 次 , 构成 300x5 的 临时 
JUS ORE. 
项 目 参数 的 生成 如 下 所 示 : DUH Be P,(0) WU (0.05, 0. 15) AU (0. 1, 0.3) 中 


随机 抽取 ，P(1) 从 U(0.85, 0.95) MIU (0. 7, 0.9) 中 随机 抽取 。 其 他 属性 掌握 模式 在 


新 题 /上 的 正确 作答 概率 从 CTLP(0),P(D] 中 随机 产生 并 满足 单调 性 条 件 ， 掌 握 属 


性 个 数 多 的 被 试 在 题目 i 上 的 答对 概率 大 于 掌握 属性 个 数 少 的 被 试 (de la Torre & 
Chiu, 2016). 


4.1.2 新 题 生 成 


新 题 生 成 包括 0 和 矩阵 以 及 项 目 参 数 的 生成 。 设 置 待 标定 的 新 题 个 数 m = 20, 
新 题 2 窍 阵 是 大 小 为 20xs 的 矩阵 。 从 上 一 步 模 拟 的 2 矩阵 中 随机 抽取 20 行 以 构建 
新 题 2 矩 阵 ， 新 题 项 目 参 数 的 生成 与 题库 项 目 参数 的 生成 一 致 。 在 生成 被 试 属性 
掌握 模式 真 值 及 项 目 参数 真 值 后 , 根据 给 定 的 认 知 诊断 模型 计算 被 试 在 每 个 新 题 
上 的 正确 作答 概率 ， 将 该 正确 作答 概率 与 0~1 之 间 的 随机 数 进行 比较 ， 如 果 被 试 
在 题目 上 的 正确 作答 概率 大 于 随机 数 ， 则 答对 题目 ， 否 则 答 错 题目 。 


4.2 CD-CAT 过 程 及 新 题 标定 


研究 使 用 定 长 终止 规则 , 每 个 参与 测验 的 被 试 均 作 答 20 个 旧 题 和 5 个 新 题 
(Z=5). CD-CAT 模拟 过 程 具体 如 下 : 

测验 开始 时 对 于 被 试 的 情况 一 无 所 知 ， 因 此 (1) 从 题库 中 随机 挑选 一 个 项 目 
作为 被 试 的 初始 作答 题 ; (2) 模 拟 被 试 在 当前 项 目 上 的 作答 ,然后 基于 被 试 在 已 选 
mi E EREE EK (shannon entropy, SHE; Cheng, 2009) 选 题 策略 为 被 试 从 
剩余 题库 中 挑选 最 适合 的 项 目 作 为 其 下 一 个 作答 项 目 ， 重 复 该 步骤 直到 测验 长 
度 达 到 预先 指定 的 标准 。SHE 选 题 策略 理论 基础 扎实 ， 具有 较 高 的 估计 精度 ， 
已 有 同时 标定 新 题 O 矩阵 和 项 目 参 数 的 研究 也 表明 SHE 选 题 策略 下 各 在 线 标定 
方法 均 具 有 较 好 的 项 目标 定 精 度 (Chen et al, 2015; Tan et al., 2022; Zheng & 
Chang, 2016; HEX 等 , 2021; 张 学 工 , 2010)。 因 此 , 研究 选用 SHE 作为 选 题 策 
WE. (3) 使 用 极 大 似 然 (maximum likelihood estimation, MLE) 方 法 估计 被 试 的 属性 
掌握 模式 。 

在 CD-CAT 模拟 过 程 中 ,随机 从 待 标定 的 20 个 新 题 中 抽取 5 个 新 题 并 将 其 
置 于 被 试 测验 过 程 的 随机 位 置 。CD-CAT 测验 结束 后 , 基于 被 试 属性 边际 掌握 概 
率 , 属性 掌握 模式 后 验 分 布 及 被 试 在 新 题 上 的 作答 , 分 别 使 用 SCADOCM 和 SIE 
方法 标定 新 题 的 O 矩阵 和 项 目 参 数 。 


4.3 评价 标准 


标定 效率 : 即 平均 运行 时 间 (average running time, ART) ART 用 于 评估 各 在 线 
标定 方法 的 标定 效率 , 其 计算 如 下 : 


7 


100 
Dat 
ART = =, (17) 


其 中 , 旋 表 示 第 7 次 重复 模拟 中 ,各 在 线 标定 方法 标定 新 题 所 用 的 时 间 .ART (EGER 
小 , 说明 用 于 标定 新 题 的 方法 的 效率 越 高 。 本 文 所 有 实验 均 在 配置 为 Intel Core 
15-8400 2.81GHz， 内 存 20G 的 计算 机 上 运行 ,以 保证 各 标定 方法 的 估计 效率 具有 
可 比 性 。 

属性 向 量 正 确 估计 率 (attribute vector correct estimation rate, AVCER) AVCER 


FIT PET Q JGPERO AN TERERE, SIARA: 


= 1 A) QD) 


其 中 , rS 100 次 重复 模拟 实验 中 的 第 > 次 重复 实验 ，6 久 表示 第 了 次 重复 模拟 


中 新 题 j 的 q 向 量 估计 值 ，g 久 表示 第 r 次 重复 模拟 中 新 题 j 的 4 向 量 真 值 。 
I(q? — g 吕 ) 为 指示 性 函数 ， 用 于 评估 第 r 次 重复 模拟 中 4 站 是 否 等 于 gq)?。 


AVCER 值 越 大 ,新 题 O 矩阵 估计 精度 越 高 。 
均 方 根 误 差 (root mean squared error, RMSE) RMSE 指标 用 于 评价 新 题 项 目 参 
数 的 估计 精度 ， 其 表达 式 可 写 为 : 


2K 


100 m 
muse |e) D(a — Pf(o))', (19) 


ERF, PPa) 和 PP(ao) 分 别 表示 第 > 次 重复 模拟 中 属性 掌握 模式 为 ae 的 被 试 


在 新 题 / 上 的 正确 作答 概率 估计 值 和 真实 值 。RMSE 值 越 小 ,项目 参数 的 估计 精 
度 越 高 。 此 外 ，P(0) 和 1-P(1) 参 数 的 RMSE 计算 公式 与 公式 (19) 略 有 不 同 ， 有 具体 
如 下 所 示 : 


P(0): RMSE — " > 2. (PP (0) — p? (0)) $ (20) 


4.4 研究 1 结果 


图 1 至 图 3， 以 及 表 1 分 别 呈 现 了 模拟 题库 下 SCADOCM 和 SIE 方法 的 项 
目标 定 效率 以 及 项 目标 定 精度 结果 。 各 模拟 条 件 下 SCADOCM 的 平均 运行 时 间 
(ART)、 属 性 向 量 估计 正确 率 (AVCER) 以 及 均 方 根 误差 (RMSE) 的 均值 分 别 为 
5.231s、66.4% 和 0.101, SIE 方法 对 应 的 值 分 别 为 99.893s、0.0% 和 0.242。 需 注 
ERE. SIE 方法 的 AVCER 值 均 接 近 于 0.0%， 其 原因 可 能 在 于 SIE 方法 中 用 于 
估计 新 题 q 向 量 的 MLE 方法 在 G-DINA 模型 下 倾向 于 选择 测量 所 有 属性 的 q 向 
量 作为 新 题 的 估计 9 向 量 ( 汪 大 勋 等 , 2020; Chen et al., 2013)。 总 之 ，SCADOCM 


具有 较 好 的 估计 效率 和 项 目标 定 精度 ,其 性 能 优 于 SIE 方法 。 
图 1 为 使 用 SCADOCM 和 SIE 方法 估计 20 个 新 题 的 平均 运行 时 间 ( 单 位 : 
秒 )。 相 比 于 SCADOCM, SIE 方法 的 估计 效率 更 低 , 其 所 有 条 件 下 的 平均 ART 值 
约 为 SCADOCM 的 19.095 fij, SCADOCM 和 SIE 的 平均 ART 值 分 别 为 5.231s 
和 99.893s。 在 标定 样本 对 各 方法 标定 效率 的 影响 上 ，SCADOCM 和 SIE 方法 的 
平均 运行 时 间 均 随 标定 样本 的 增加 而 延长 。 当 标定 样 为 50 时 , SCADOCM 和 SIE 
的 平均 ART 值 分 别 为 1.216s 和 25.554s, 而 当 标 定 样本 为 2000 时 , 2 种 方法 的 平 
均 ART 值 延 长 至 12.643s 和 222.052s。 项 目 质量 对 SCADOCM 和 SIE 的 标定 效 
率 影 响 较 小 。 当 项 目 参 数 范围 为 U(0.05, 0.15) 和 U(0.1, 0.3), SCADOCM 的 平均 
ART 值 为 6.543s 和 3.920s，SIE 方法 的 平均 ART 值 为 81.624s 和 118.162s。 
SCADOCM 的 标定 效率 受 属性 掌握 模式 分 布 的 影响 较 小 , STE 在 属性 掌握 模式 为 
均匀 分 布 和 高 阶 分 布下 的 标定 效率 略 优 于 正 态 分 布 。SCADOCM 和 SIE 的 平均 
ART 值 在 属性 掌握 模式 分 布 为 均匀 分 布 时 分 别 为 4.304s 和 58.204s， 在 属性 掌握 
模式 分 布 为 高 阶 分 布 时 分 别 为 4.615s 和 65.781s， 而 在 属性 掌握 模式 分 布 为 正 态 
分 布 时 分 别 为 6.776s 和 175.695s. 
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1 各 在 线 标定 方法 在 不 同 条 件 下 的 平均 运行 时 间 (ART) 结 果 ( 单 位 : 秒 ) 
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图 2 结果 表明 , SCADOCM 的 O 矩阵 估计 精度 高 于 SIE 方法 , 标定 样本 、 项 
目 质 量 和 属性 掌握 模式 分 布 均 影 响 SCADOCM 的 O 和 矩阵 估计 精度 ， 而 对 SIE 77 
法 的 影响 可 忽略 不 计 。SIE 方法 在 各 模拟 条 件 下 的 AVCER 值 均 接近 于 0。 
SCADOCM 的 0O 和 矩阵 估计 精度 随 标定 样 本 的 增加 而 提高 。 各 标定 样本 (50、100、 
500、1000 和 2000) F , SCADOCM 的 AVCER 均值 分 别 为 :38.3%、48.9%、74.5%、 
82.3% 和 88.396. 在 标定 样本 达到 一 定 的 数量 后 , 样本 量 对 SCADOCM 的 Q OBERE 
估计 精度 的 影响 逐渐 减 小 。 当 标 定 样 本 从 50 增 加 到 100 时 ,SCADOCM 的 AVCER 
指标 差 值 为 10.6%, 从 100 增加 到 500 时 ,SCADOCM 的 AVCER 差 值 为 25.6%， 
每 增加 50 个 被 试 所 增加 的 AVCER 值 平均 为 3.2%， 而 从 1000 增加 到 2000 时 ， 
SCADOCM 的 AVCER 差 值 仅 为 6.0%， 每 增加 50 个 被 试 所 增加 的 AVCER 值 平 
均 为 0.3%。 项 目 质量 越 高 ，SCADOCM 的 2 矩阵 估计 精度 越 高 ， 当 项 目 参数 范 
EIM U (0.05, 0.15) 变 化 到 U (0.1, 0.3) 时 ，AVCER 值 在 固定 标定 样本 和 属性 掌握 
模式 分 布下 单调 递减 ,在 项 目 参数 范围 为 U (0.05, 0.15) 时 ,SCADOCM 的 AVCER 
值 在 40.4%~96.0% 之 间 ， 项 目 参数 范围 为 U (0.1, 0.3) 时 ，SCADOCM 的 AVCER 
值 在 30.2%~89.4% 之 间 。 在 属性 掌握 模式 分 布 对 O 算 阵 标定 精度 的 影响 上 ，, 多数 
实验 条 件 下 ，SCADOCM 的 O 矩阵 估计 精度 在 属性 掌握 模式 为 均匀 分 布 时 最 好 ， 
高 阶 分 布 时 次 之 , 正 态 分 布 时 最 差 。 其 可 能 的 原因 在 于 ， 均 匀 分 布下 每 种 属性 掌 
握 模 式 的 被 试 人 数 都 较为 均匀 , 而 高 阶 分 布 和 正 态 分 布下 某 些 属性 掌握 模式 的 被 
试 人 数 非常 少 , 尤其 是 正 态 分 布下 某 些 属性 掌握 模式 的 被 试 人 数 更 少 , 这 不 利于 
正确 q 向 量 的 识别 (Chiu, 2013; Wang et al., 2018)， 从 而 导致 高 阶 分 布 和 正 态 分 布 
下 的 O 矩阵 估计 精度 更 低 。SCADOCM 在 均匀 、 高 阶 和 正 态 分 布下 的 O 矩阵 估 
计 精 度 范围 分 别 为 35.2%~96.0%，33.7%~93.4% 和 30.2%~86.0%。 但 在 项 目 参数 
范围 为 U (0.05, 0.15), 标定 样本 为 100 时 ，SCADOCM 的 AVCER 值 在 高 阶 分 布 
下 更 大 。 此 条 件 下 ，SCADOCM 在 均匀 和 高 阶 分 布下 的 AVCER 值 分 别 为 58.496 
和 59.9%。 
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图 3 Jy SCADOCM 和 SIE 的 项 目 参 数 标定 结果 。SCADOCM 的 项 目 参数 标 
定 精度 优 于 SIE 方法 ,两 方法 均 受 标定 样本 、 项 目 质量 和 属性 掌握 模式 分 布 的 影 
响 。 随 着 标定 样本 的 增加 ，SCADOCM 和 SIE 方法 的 项 目 参数 标定 精度 提高 。 

各 标定 样本 下 ，SCADOCM 的 平均 RMSE 值 分 别 为 0.188、0.145、0.076、0.057 
和 0.042, SIE 的 平均 RMSE 值 分 别 为 0.400、0.337、0.200、0.156 和 0.120. 

SCADOCM 和 SIE 在 标定 样本 为 50 和 2000 之 间 的 平均 RMSE 指标 差 值 分 别 为 
0.146 和 0.280。 标 定 样本 对 SIE 方法 的 影响 略 大 于 SCADOCM。SCADOCM 和 
SIE 的 项 目 参 数 标定 精度 在 部 分 实验 条 件 下 随 项 目 质量 的 提升 而 略 有 升 高 ， 但 在 
部 分 实验 条 件 下 随 项 目 质量 的 提升 而 略 有 下 降 。 总 体 上 来 说 ，SCADOCM 在 两 
项 目 参 数 范围 下 (C (0.05，0.13) 和 U (0.1, 0.3)) 的 平均 RMSE 值 分 别 为 0.101 
(0.020—0.231)581 0.102 (0.025~0.220)， 平 均 RMSE 值 变 大 ，SIE 在 两 项 目 参 数 下 
的 平均 RMSE 值 分 别 为 0.235 (0.046~0.448) 和 0.250 (0.058~0.429)， 平 均 RMSE 
值 变 大 。 在 属性 掌握 模式 分 布 为 正 态 分 布 时 ，SCADOCM 在 项 目 参数 范围 为 U 
(0.05, 0.15) 时 具有 更 大 的 RMSE 值 ,两 项 目 参数 范围 间 的 RMSE 最 大 差 值 为 0.013; 
在 属性 掌握 模式 为 正 态 分 布 且 标 定 样本 为 50 和 100 时 ,SIE 在 项 目 参数 范围 为 U 
(0.05, 0.15) 时 具有 更 大 的 RMSE 值 ， 两 项 目 参 数 范 围 间 的 RMSE 差 值 在 标定 样 
本 为 50 时 为 0.019。 这 可 能 是 标定 样本 和 属性 掌握 模式 分 布 相互 作用 的 结果 。 新 
题 的 项 目 参数 标定 精度 在 标定 样本 量 少 的 情况 下 较 低 , 而 在 标定 样本 少 且 属 性 掌 
握 模 式 分 布 为 正 态 分 布 时 , 更 有 可 能 出 现 某 些 属性 掌握 模式 下 的 被 试 数量 多 而 男 
一 些 属性 掌握 模式 下 的 被 试 缺失 的 情况 , 两 者 共同 作用 可 能 导致 项 目 质量 高 时 的 
RMSE 值 略 大 于 项 目 质 量 低 时 , 但 是 这 种 差异 是 较 小 的 ， 且 可 以 通过 增 大 样本 量 
或 改变 属性 掌握 模式 分 布 扭转 这 种 趋势 。 在 属性 掌握 模式 分 布 对 项 目 参数 标定 精 
度 的 影响 上 , SCADOCM 和 SIE 方法 的 项 目 参 数 标定 精度 在 属性 掌握 模式 为 均匀 
分 布 时 最 好 ， 高 阶 分 布 时 次 之 , 正 态 分 布 时 最 差 。 均 匀 、 高 阶 和 正 态 分 布下 ， 

SCADOCM 的 RMSE 范围 分 别 为 0.020~0.154、0.028~0.185 和 0.070~0.231, SIE 


的 RMSE 范围 分 别 为 0.046~0.378、0.079~0.403 和 0.221~0.448。 
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3 各 在 线 标定 方法 在 不 同 条件 下 项 目 参数 标定 精度 (RMSE) 结 果 


表 1 呈现 了 SIE 和 SCADOCM 的 P(0) 和 1-P(1) 参 数 标定 结果 。 结 果 表 明 
SCADOCM 在 P(0) 和 1-P(1) 参 数 上 具有 较 好 的 标定 精度 , 优 于 S 正 方法, 尤其 在 


标定 样本 量 少 的 情况 下 。SIE 和 SCADOCM 均 受 标定 样本 、 项 目 质量 和 属性 掌 


握 模 式 分 布 的 影响 。SIE 和 SCADOCM 的 P(0) 和 1-P(1) 参 数 标定 精度 随 着 标定 样 


本 的 增加 而 提高 。 对 于 P(0) 参 数 ，SIE 在 各 标定 样本 下 的 平均 RMSE 值 分 别 为 
0.223. 0.155. 0.066. 0.046 和 0.032, SCADOCM 对 应 的 平均 RMSE 值 分 别 为 
0.155. 0.120. 0.048. 0.032 和 0.022; 对 于 1-P(1) 参 数 ，SIE 在 各 标定 样本 下 的 
平均 RMSE 值 分 别 为 0.235、0.163、0.067、0.046 和 0.033, SCADOCM 对 应 的 


平均 RMSE 值 分 别 为 0.118、0.087、0.037、0.026 和 0.018. SIE 和 SCADOCM 
在 POM 1-P(1) 参 数 上 的 标定 精度 随 项 目 质量 的 提升 而 升 高 ， 除 标定 样本 为 50 
的 情况 。 标 定 样本 为 50 时 ，SCADOCM 在 项 目 质 量 低 时 的 标定 精度 高 于 项 目 质 


1-P(1) 参 数 标 定 精 度 的 


量 高 时 ， 但 RMSE 差 值 较 小 ， 最 大 差 值 为 0.022。 在 属性 掌握 模式 分 布 对 P(0) 和 


响 上 ,SIE 和 SCADOCM 在 属性 掌握 模式 为 高 阶 分 布 时 


的 P(0) 和 1-P(1) 参 数 标定 精度 略 优 于 均匀 分 布 和 正 态 分 布 ,对 于 P(0) 参 数 ,均匀 、 
高 阶 和 正 态 分 布下 ，SIE 的 RMSE 范围 分 别 为 0.038~0.362、0.019~0.180 和 


0.023~0.229, SCADOCM 的 RMSE Yu 


围 分 别 为 0.018~0.184、0.014~0.133 和 


0.019~0.161; 对 于 1-P(1) 参 数 , 均匀、 高 阶 和 正 态 分 布下 ，SIE 的 RMSE 范围 分 


FN 0.039-0.356. 0.019~0.186 和 0.023~0.232, SCADOCM 的 RMSE 范 


A 0.015~0.122. 0.013~0.107 和 0.017~0.134. 
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0.079 0.041 0.078 0.032 
0.053 0.027 0.054 0.022 
0.229 0.160 0.232 0.134 
0.154 0.124 0.155 0.101 
0.065 0.058 0.065 0.045 
0.046 0.041 0.007 0.033 


2000 0.033 0.030 0.034 0.024 
50 0.131 0.127 0.127 0.095 

100 0.086 0.088 0.088 0.066 
500 0.038 0.033 0.038 0.027 
1000 0.026 0.021 0.026 0.019 
2000 0.019 0.014 0.019 0.013 
50 0.269 0.184 0.329 0.122 

100 0.198 0.142 0.218 0.087 
0.05-0.15 135] 500 0.079 0.041 0.079 0.034 
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2000 0.038 0.018 0.039 0.015 
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100 0.107 0.107 0.110 0.084 
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2000 0.023 0.019 0.023 0.017 
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5 研究 2: 真实 题库 下 SCADOCM 的 性 能 验证 


基于 研究 一 的 结果 ， 考 虑 到 SIE 方法 在 各 实验 条 件 下 的 2 矩阵 标定 精度 均 
较 低 ， 不 适用 G-DINA 等 模型 。 因 此 ， 研 究 2 仅 考 查 真实 题库 下 SCADOCM 在 
不 同 标定 样本 (50、100、500、1000、2000) 和 属性 掌握 模式 分 布 (均匀 分 布 、 高 阶 
分 布 、 多 元 正 态 分布 ) 下 标定 新 题 的 效果 。 本 研究 共 包含 5 (标定 样本 )x3 (属性 掌 
握 模 式 分 布 =15 种 模拟 实验 条 件 , 每 种 实验 条 件 重 复 实验 100 次 以 减少 随机 误差 。 


5.1 真实 题库 及 新 题 指定 


真实 题库 : 因 可 为 患者 提供 全 面 且 详细 的 症状 图 谱 等 独 有 的 优势 , 认 知 诊断 
在 心理 障碍 评估 与 诊断 中 的 应 用 日 益 增 加 。 如 研究 者 将 认 知 诊断 应 用 于 病理 性 赌 
博 、 分裂 型 人 格 、 边缘 型 人 格 、 焦虑 、 抑 秀和 网 络 成 疗 等 的 评估 与 诊断 (de la Torre 
et al., 2018; Peng et al., 2019; Templin & Henson, 2006; Tu et al., 2017; Xi et al., 
2020; 史 双 双 , 2017)。 史 双双 (2017) 基 于 《精神 障碍 诊断 与 统计 手册 》 第 五 版 
(DSM-5) 中 定义 的 网 络 成 瘾 症状 标准 构建 了 网 络 成 阁 题 库 ， 且 在 实践 中 己 验 证 该 
网 络 成 瘾 题库 的 信 效 度 等 均 符 合 心理 测量 学 要 求 。 本 实验 使 用 该 网 络 成 瘾 题库 作 
为 真实 题库 ， 题 库 中 包含 263 道 二 级 计 分 项 目 ， 每 个 项 目 最 多 测量 3 个 属性 ( 症 
状 标准 )， 共 测量 了 9 个 属性 (如 表 2 所 示 )。 根 据 DSM-5 的 诊断 标准 ， 被 试 满足 


9 个 症状 标准 中 的 5 个 或 5 EA EER TAP 28 BORE» SICH ABH AY SEOGO0(2017) 
研究 中 的 原始 2 矩阵 作为 真实 O 矩阵 ， 并 基于 该 真实 O 矩阵 以 及 1558 个 真实 
被 试 的 作答 数据 使 用 G-DINA 模型 估计 题库 的 项 目 参 数 , 项 目 参 数 捅 述 性 统计 结 
RUK 3 所 示 。 为 外 ， 题 库 中 所 有 项 目的 参数 结果 如 附 表 1 所 示 。 选 用 G-DINA 
模型 进行 分 析 , 主要 考虑 到 G-DINA 模型 既 允 许 属性 间 存 在 补偿 关系 , 也 允许 属 
性 间 存 在 非 补 偿 关 系 ， 适 合 于 网 络 成 瘾 测验 的 分 析 ， 且 模型 -资料 拟 合 检验 ( 表 4) 
结果 发 现 G-DINA 模 型 较 DINA 等 其 它 约束 的 认 知 诊断 模型 更 能 拟 合 该 网 络 成 交 
数据 。 

新 题 指 定 : 从 网 络 成 疗 题 库 中 随机 抽取 20 个 项 目 作 为 待 标定 O 矩阵 与 项 目 
参数 的 新 题 。 

研究 2 中 被 试 属性 掌握 模式 的 生成 , CD-CAT 过 程 与 新 题 标定 以 及 评价 标准 
均 与 研究 1 保持 一 致 。 需 注意 的 是 ， 研 究 2 中 项 目 参数 “ 真 值 ”是 基于 已 有 研究 
中 给 定 的 由 专家 标定 的 2 矩阵 和 所 有 被 试 的 真实 作答 数据 使 用 G-DINA 模型 估 
计 的 结果 ， 基 于 该 “ 真 值 ”计算 的 RMSE 指标 反映 的 是 项 目 参 数 估计 结果 之 间 
的 一 致 性 。 


K 2 DSM-5 中 定义 的 网 络 成 疗 症 状 标准 
ID 症状 标准 
沉迷 于 网 络 游戏 (如 ， 重 温 过 去 的 游戏 经 历 或 期 望 下 一 次 游戏 ， 网 络 游 


Al 
戏 成 为 日 常 的 主导 活动 )。 

T XE BS PN DIN EK, EIE. RERI, (BOUT 
断 的 身体 迹象 )。 


A3 耐 受 性 一 一 需要 花 更 多 的 时 间 参 与 网 络 游戏 。 
A4 试图 控制 网 络 游戏 的 参与 不 成 功 。 
A5 因 网 络 游戏 而 对 以 前 的 爱好 和 娱乐 失去 兴趣 ， 但 网 络 游戏 除外 。 
A6 尽管 了 解 心理 社会 问题 ， 但 仍 继续 过 度 使 用 网 络 游戏 。 
A7 向 家 庭 成 员 、 治 疗 师 或 者 其 他 人 撒谎 参与 网 络 游戏 的 次 数 。 
A8 利用 网 络 游戏 来 逃避 或 缓解 消极 情绪 (如 ， 无 助 感 、 焦 虑 、 内 次) 
因 参 与 网 络 游戏 而 危及 或 失去 重要 的 人 际 关 系 、 工 作 、 教 育 或 职业 机 


会 。 


A9 


AE 3 网 络 成 将 题库 项 目 参 数 的 描述 性 统计 


项 目 参数 最 小 值 最 大 值 平均 值 标准 差 
1-P(1) 0.161 0.500 0.450 0.072 
P(0) 0.004 0.500 0.069 0.082 


7E: P(0) 指 未 掌握 项 目 所 测量 的 任 一 属性 的 被 试 在 项 目 上 的 答对 概率 ，P(1) 指 掌 
握 项 目 所 测量 的 所 有 属性 的 被 试 在 项 目 上 的 答对 概率 。 


表 4 网 络 成 六 题 库 模 型 -资料 拟 合 检验 结果 


模型 AIC 
DINA 309348.5428 
DINO 309803.4409 
ACDM 307764.2211 
G-DINA 307426.2025 
52 研究 2 结果 


BIC LL 
314897.6939 -153637.2714 
315352.5920 -153864.7204 
313586.2812 -152794.1105 
313574.6833 -152564.1012 


表 3 BIS MAA REI AS RUA E ETE. 相 比 研究 1 模拟 题库 中 项 
目的 质量 (P(0Y(1-P(1))~U(0.05, 0. 15) HU (0.1, 0.3)), 2% cA el E P H B] JR 


EER. EZEKET Pwo wi 


E SCADOCM 的 性 能 ， 可 以 进一步 考察 


SCADOCM 的 适用 范围 以 及 该 方法 在 实践 中 应 用 时 的 稳健 性 。 
K 5 呈现 了 网 络 成 疗 题 库 下 新 方法 SCADOCM 的 项 目标 定 效 率 、O 矩阵 估 


计 精 度 和 项 目 参数 标定 一 致 性 结果 。 结 果 表 明 ， 真 实 题库 下 SCADOCM 仍 具有 


较 好 的 估计 效率 、O 矩阵 估计 精度 和 项 目 参 数 标定 一 致 性 。 有 具体 而 言 ， 各 模拟 条 
件 下 SCADOCM 的 ART、AVCER 以 及 RMSE 的 均值 分 别 为 37.612s、79.8% 和 


0.101. 
使 用 SCADOCM 估计 20 个 新 题 
SCADOCM 的 平均 ART 值 为 37.612s。 


的 平均 运行 时 间 ( 单 位 ， 秒 ) 如 表 5 Bp. 
在 标定 样本 对 SCADOCM 标定 效率 的 影 


WF, SCADOCM 的 平均 运行 时 间 均 随 标 定 样本 的 增加 而 延长 。 当 标定 样 为 50 
时 , SCADOCM 的 平均 ART 值 为 4.507s; 而 当 标 定 样本 为 2000 时 ， 其 平均 ART 


值 延长 至 101.8495. SCADOCM 的 标定 


效率 在 各 属性 掌握 模式 分 布 之 间 的 差异 不 


Ke SCADOCM 的 平均 ART 值 在 属性 掌握 模式 分 布 为 均匀 分 布 、 高 阶 分 布 和 正 
态 分 布 时 分 别 为 37.567s、38.060s 和 37.209s。 

表 5 结果 表明 ， 标 定 样本 和 属性 掌握 模式 分 布 均 影响 SCADOCM 的 O ERE 
估计 精度 。SCADOCM 的 O 矩阵 估计 精度 随 标 定 样本 的 增加 而 提高 。 各 标定 样 
本 (50、100、500、1000 和 2000) F, SCADOCM 的 AVCER 均值 分 别 为 : 57.096. 
69.8%、88.0%、91.2% 和 92.8%。 与 模拟 题库 一 致 ， 在 标定 样本 达到 一 定 的 数量 
后 ， 样 本 量 对 SCADOCM 的 O 矩阵 估计 精度 的 影响 逐渐 减 小 。 当 标定 样本 从 50 
增加 到 100 时 ,SCADOCM 的 AVCER 指标 差 值 为 12.8%, 从 100 增加 到 500 时 ， 
SCADOCM 的 AVCER 差 值 为 18.2%, 每 增加 50 个 被 试 所 增加 的 AVCER 值 平 均 
为 2.3%， 而 从 1000 增加 到 2000 时 ，SCADOCM 的 AVCER 差 值 仅 为 1.6%， 
增加 50 个 被 试 所 增加 的 AVCER 值 平均 为 0.1%。 在 属性 掌握 模式 分 布 对 O XB EIE 
标定 精度 的 影响 上 , SCADOCM 的 2 矩阵 估计 精度 在 属性 掌握 模式 为 均匀 分 布 时 
最 好 ,高 阶 分 布 时 次 之 , 正 态 分 布 时 最 差 。SCADOCM 在 均匀 、 高 阶 和 正 态 分 布 
下 的 O 矩阵 估计 精度 范围 分 别 为 69.7%~97.8%, 56.0%~94.5% 和 45.4%~86.3%。 

与 模拟 题库 一 致 ，SCADOCM 的 项 目 参 数 标 定 一 致 性 受 标定 样本 和 属性 掌 
握 模式 分 布 的 影响 。 随 着 标定 样本 的 增加 ，SCADOCM 的 项 目 参数 标定 一 致 性 
提高 。 各 标定 样本 下 ,SCADOCM 的 平均 RMSE 值 分 别 为 0.192、0.135、0.069、 
0.058 和 0.052。 在 属性 掌握 模式 分 布 对 项 目 参 数 标定 一 致 性 的 影响 上 ， 
SCADOCM 的 项 目 参数 标定 一 致 性 在 属性 掌握 模式 为 均匀 分 布 时 最 好 ， 高 阶 分 
布 时 次 之 , 正 态 分 布 时 最 差 。 均 匀 、 高 阶 和 正 态 分 布下 ，SCADOCM 的 RMSE 
范围 分 别 为 0.019~0.142、0.032~0.189 和 0.105~0.244. 

表 5 真实 题库 下 SCADOCM 的 新 题 标 定 结 果 
示 定 样本 


NEAL 46 Lc 
评价 指标 d 50 100 500 1000 2000 
re 均匀 4.585 6.954 25.610 49.539 101.146 
np 高 阶 4.325 6.739 26.217 49.898 103.118 
(单位 : 秒 ) e 
IEA 4.612 6.946 25.035 48.168 101.284 
均匀 0.697 0.782 0.943 0.968 0.978 
AVCER 高 阶 0.560 0.702 0.882 0.924 0.945 
TEX 0.454 0.611 0.815 0.845 0.863 
均匀 0.142 0.093 0.007 0.026 0.019 
RMSE 高 阶 0.189 0.125 0.053 0.040 0.032 


正 态 0.244 0.187 0.118 0.109 0.105 


6 讨论 与 未 来 研究 方向 


如 何 才能 使 已 构建 好 的 CD-CAT 在 实际 测验 中 长 久 有 效 地 发 挥 作用 ， 高 效 
地 为 测验 使 用 者 提供 准确 详尽 的 诊断 结果 ? 行 之 有 效 的 题库 维护 或 更 新 方法 是 
必 不 可 少 的 。 项 目 增补 对 于 题库 维护 起 着 至 关 重 要 的 作用 , 而 在 线 标定 是 一 种 有 
效 的 项 目 增补 方法 。 然而 , CD-CAT PAX O 矩阵 与 项 目 参数 同时 性 在 线 标定 方 
法 的 研究 较 少 ， 且 基本 是 基于 DNA 模型 提出 。 而 G-DINA 模型 下 有 关 O 矩阵 
与 项 目 参数 同时 性 在 线 标定 方法 的 研究 几乎 空白 , 这 一 定 程度 上 有 碍 于 CD-CAT 
在 实际 测验 中 的 进一步 推广 。 

本 研究 基于 正则 化 方法 选择 特征 的 思路 , 提出 了 适用 于 G-DINA 等 模型 的 在 
线 标定 新 方法 SCADOCM, 以 期 为 CD-CAT 题库 的 项 目 增补 提供 新 的 方法 支持 。 
新 方法 SCADOCM 使 用 正则 化 方法 标定 新 题 的 O 矩阵 ， 相 比 已 有 在 线 标定 方法 
中 所 使 用 的 最 优 子 集 思路 ， 可 有 效 节约 新 题 标定 的 时 间 ， 为 CD-CAT 中 O 矩阵 
与 项 目 参 数 同时 性 在 线 标定 方法 的 研究 提供 了 新 的 思路 与 视角 。 通 过 模拟 与 真实 
题库 下 的 Monte Carlo 模拟 研究 检验 SCADOCM 的 可 行 性 与 合理 性 , 考察 标定 样 
本 、 项 目 质量 以 及 属性 掌握 模式 分 布 等 因素 对 其 性 能 的 影响 ， 并 与 传统 的 SIE 方 
法 进行 比较 。 研 究 结 果 表 明 ， 新 方法 SCADOCM 在 各 模拟 条 件 下 都 具有 较为 理 
想 的 标定 效率 和 标定 精度 ， 且 优 于 SIE 方法 。 如 ， 模 拟 题库 下 SIE 的 平均 ART 
值 是 SCADOCM 的 19.096 1%, 说明 SCADOCM 具有 更 高 的 标定 效率 .SCADOCM 
的 平均 AVCER 值 比 SIE 高 66.4%, H. SCADOCM 的 平均 RMSE 值 比 SIE 低 0.141， 
显示 SCADOCM 在 标定 精度 上 表现 出 更 好 的 性 能 。 另 外 ， 研 究 结 果 显 示 ，SIE 
fn o 抑 阵 估计 精度 在 各 条 件 下 几乎 都 接近 于 0。 其 可 能 的 原因 在 于 : 研究 中 所 用 
评估 2 FEM TAB BERI AVCER 指标 , 评估 题目 的 整个 估计 q 向 量 和 真实 q 向 量 
之 间 的 一 致 性 ， 也 即 9 向 量 模式 的 估计 精度 。SIE 方法 中 使 用 MLE 方法 估计 新 
fl q 向 量 , 而 在 G-DINA 模型 下 ,MLE 方法 倾向 于 选择 测量 所 有 属性 的 q 向 量 ( 即 
全 为 1 的 9 向量) 作为 新 题 的 估计 qg 向 量 ( 汪 大 勋 等 , 2020; Chen et al., 2013)。 例 
如 ,测验 测量 属性 个 数 K=5 时 ,SIE 方法 选择 q 向 量 g=[1 1 1 1 1] 作 为 题目 的 估 
it q 向 量 ， 实 验 结果 调查 也 证 实 了 这 一 点 。 在 模拟 实验 中 ， 设 置 测 验 共 测 量 5 
个 属性 ， 每 个 题目 ( 旧 题 和 新 题 ) 最 多 测量 3 个 属性 ,使 用 SIE 标定 新 题 O 矩阵 偏 


juu 


向 于 指定 每 个 题目 都 测量 5 个 属性 ， 此 时 新 题 O 矩阵 的 属性 向 量 估计 精度 低 于 
随机 分 配 概率 , 出 现 AVCER 在 0 左右 的 结果 。 假设 20 个 新 题 均 测量 3 个 属性 ， 
则 20 xs 的 新 题 O 矩阵 中 有 60 个 元 素 为 1，40 个 元 素 为 0, 此 时 SIE 方法 的 属性 
估计 精度 约 为 60%， 也 即 SIE 方法 的 属性 估计 精度 最 大 值 为 60%; 研究 中 20 个 
新 题 的 ¢ 向 量 从 300 个 旧 题 (测量 1、2 和 3 个 属性 的 项 目 均 为 100 题 ) 中 随机 抽 
取 ，20x5 的 新 题 O 矩阵 中 元 素 为 1 的 个 数 大 多 数 情况 下 小 于 50 个 ， 该 类 情况 
下 SIE 方法 的 属性 估计 精度 低 于 50%。 研 究 1 中 各 模拟 条 件 下 SIE 方法 的 平均 属 
性 估计 精度 为 39.8%， 大 于 0， 低 于 50%. FE 1 在 SIE 方法 的 AVCER 极 低 的 
情况 下 仍 保留 了 该 方法 作为 比较 基准 , 主要 考虑 到 该 结果 可 以 为 其 他 研究 者 和 实 
践 者 提供 参考 与 借鉴 , 他 们 未 来 在 G-DINA 等 饱和 模型 下 进行 在 线 标定 方法 研究 
时 可 以 避免 选择 该 方法 作为 比较 基准 。 此 外 ，SIE 方法 标定 新 题 O 矩阵 时 未 考虑 
模型 复杂 性 , 可 能 不 适用 于 G-DINA 等 饱和 模型 ,可 以 从 对 模型 复杂 性 进行 惩罚 
这 一 思路 入 手 改进 该 方法 。 有 具体 来 说 ， 使 用 SIE 标定 新 题 O 矩阵 时 ， 基 于 模型 
复杂 性 的 考虑 ， 对 似 然 进 行 惩罚 ， 构 建 BIC 指标 ， 选 择 能 使 BIC 值 最 小 的 9 向 
量 作为 新 题 的 估计 9 向 量 。 初步 的 预 实验 表明 : 改进 的 SIE 方法 的 项 目标 定 精 度 
优 于 SIE 方法 。 项 目 参 数 POA 1-P(1) 的 取 值 范围 为 U (0.1, 0.3)， 属 性 掌握 模式 
分 布 为 正 态 分 布 ， 标 定 样 本 为 500 时， 改进 SIE 方法 的 平均 运行 时 间 (ART)、 属 
性 向 量 正确 估计 率 (AVCER)、 项 目 参 数 均 方 根 误差 (RMSE)、P(0) 和 1-P(1) 参 数 的 
RMSE 值 分 别 为 153.758s、54.9%、0.104、0.058 和 0.048, O 矩阵 标定 精度 远 优 
T SIE Jj ik, 但 仍 不 如 新 方法 SCADOCM( 此 条 件 下 SCADOCM 的 AVCER 值 为 
61.796). 

尽管 研究 是 针对 CD-CAT 题库 开发 与 维护 过 程 中 项 目 增补 的 技术 难点 ， 开 
发 高 效 可 行 的 在 线 标定 方法 , 但 其 与 心理 学 问题 是 紧密 相关 的 。 心 理 测量 学 是 研 
究 心 理学 的 工具 ， 心 理 问题 (如 抑郁 、 焦 虑 ) 的 评估 与 测量 都 离 不 开心 理 测量 学 。 
CD-CAT 作为 一 种 新 的 测验 形式 , 可 以 更 高 效 、 精 准 地 筛 查 存在 心理 问题 的 患者 
缓解 患者 (如 抑郁 症 、 躁 狂 症 ) 做 包含 大 量 题目 的 问卷 时 的 痛苦 ， 减 轻 其 测试 的 负 
担 。 更 为 重要 的 是 ，CD-CAT 可 以 帮助 测验 使 用 者 了 解 患者 在 某 种 心理 问题 各 个 
症状 上 的 表现 , 更 快 地 获得 诊断 结果 ， 且 能 依据 该 诊断 结果 制定 针对 性 的 治疗 方 
案 。 在 心理 测评 中 应 用 CD-CAT 对 患者 和 测验 使 用 者 都 具有 重要 的 意义 ， 研 究 
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致力 于 解决 CD-CAT 在 实际 测验 中 持续 应 用 时 所 面临 的 一 大 挑战 , 也 即 CD-CAT 
题库 构建 与 维护 过 程 中 进行 项 目 增补 所 需 应 对 的 技术 难题 ， 促 进 CD-CAT 在 心 
理 测评 实践 中 的 应 用 与 推广 ， 以 期 帮助 测验 使 用 者 获得 更 为 精细 的 诊断 结果 ， 制 
定 相应 的 治疗 计划 ， 这 与 心理 学 问题 奶 息 相关 。 

虽然 研究 丰富 了 CD-CAT 中 有 关 在 线 标定 方法 的 研究 ， 但 仍 有 许多 有 待 进 
一 步 完 善 及 深入 研究 的 地 方 。 具 体 分 述 如 下 : 


第 一 , 新 方法 SCADOCM 中 使 用 SCAD 来 标定 新 题 的 O FARE, 其 性 能 受 \ 参 


数 影响 ， 一 个 合适 且 优 良 的 人 值 可 提高 SCADOCM 的 O 算 阵 标定 精度 ， 进 而 提 


高 该 方法 的 项 目标 定 精 度 (Fan & Li, 2001; Fan & Lv, 2010; Fan & Tang, 2013; 
Zhang et al., 2010)。 研 究 使 用 数据 挖掘 领域 中 比较 常用 且 效 果 较 好 的 BIC 准则 来 


eM (A (Wang et al., 2007; Zhang et al., 2010)， 尽 管 研究 表明 SCADOCM 中 使 用 


该 准则 选择 \ 值 时 可 获得 令 人 满意 的 项 目标 定 精 度 ， 但 在 O 和 矩阵 与 项 目 参数 同时 


性 在 线 标定 方法 研究 中 是 否 存 在 更 好 的 参数 选择 准则 仍 是 一 个 值得 探讨 的 问题 。 


未 来 研究 中 可 对 已 有 的 ,参数 选择 准则 进行 系统 比较 ， 以 为 SCADOCM 中 参数 
的 选择 提供 建议 与 参考 。 

第 二 ， 本 研究 仅 考 虑 了 定 长 的 CD-CAT 终止 规则 ， 但 变 长 终止 规则 更 好 地 
体现 了 CD-CAT 的 自 适 应 特征 。 变 长 终止 规则 下 如 何 实现 新 题 的 标定 是 未 来 研 
究 中 可 以 进一步 讨论 和 探索 的 .例如 , 在 变 长 终止 规则 下 应 如 何 为 考生 分 配 新 题 ， 
新 题 的 分 配方 式 是 否 会 影响 最 终 的 项 目标 定 精 度 等 。 此 外 , 本 研究 的 研究 设计 围 
绕 在 线 标定 方法 的 性 能 检验 及 相关 因素 对 其 的 影响 展开 , 尚未 探索 测量 不 变性 的 
问题 。 不 同 于 以 往 研究 中 被 试 作答 矩阵 完整 ， 题 目 O 矩阵 已 知 且 正确 的 情况 
(Bradshaw & Madsion, 2015; de la Torre & Lee, 2010; Madsion & Bradshaw, 2018); 
CD-CAT 中 同时 标定 新 题 O 和 矩阵 和 项 目 参 数 时 , BEY TERR E Re — RES 
作答 数据 的 稀 玻 和 矩阵， 每 个 题目 都 只 有 部 分 被 试 作 答 , 每 个 被 试 也 只 作答 少数 几 
个 题目 ( 若 被 试 需 作 答 的 待 标定 新 题 过 多 ，CD-CAT 的 测验 长 度 可 能 大 幅 增加 ， 
加 重 被 试 的 作答 负担 ), 且 题 目 OQ 矩阵 未 知 。 此 时 , 即使 标定 样本 大 (如 1000 A), 
项 目 参 数 的 标定 精度 也 较 低 ,无 法 保证 测量 不 变性 。Bradshaw 和 Madsion (2015) 


在 其 研究 中 指出 , 在 参数 估计 精度 较 低 的 情况 下 , 很 难 观察 到 较 强 的 测量 不 变性 ， 
其 在 研究 中 也 提 到 ， 模 型 数据 拟 合 假设 以 其 它 形式 违背 (如 O ERRIRE, 
Bradshaw & Madsion, 2015) 时 ， 可 能 也 会 影响 被 试 的 分 类 一 致 性 。 因 此 ， 在 被 试 
VERB REA LAB EE, O 矩阵 未 知 或 指定 错误 的 情况 下 ， 是 否 仍 能 观察 到 测量 不 
变性 ， 在 何 种 条 件 下 可 以 观察 到 测量 不 变性 是 未 来 研究 可 以 考虑 的 一 个 方向 。 

第 三 ,CD-CAT FH ECA H O 矩阵 与 项 目 参数 同时 性 在 线 标定 方法 重点 关注 被 
试 的 作答 数据 ,而 忽视 了 在 计算 机 化 测验 中 可 以 便捷 获取 的 过 程 性 数据 , 如 作答 
反应 时 间 (response times, RTS) 数 据 。 以 往 研 究 表明 ， 反 应 时 间 数 据 可 以 提供 有 关 
被 试 认 知 过 程 的 极 具 价值 的 信息 ， 其 能 提高 项 目 参 数 的 估计 精度 (Kang et al., 
2020; Klein Entink et al., 2009; van der Linden et al., 2010). 未 来 研究 可 考虑 在 作答 
数据 与 反应 时 间 数 据 的 联合 框架 内 标定 新 题 , 以 检验 反应 时 间 数 据 是 否 有 助 于 提 
高 在 线 标定 方法 的 标定 精度 。 

第 四 , 研究 假设 CD-CAT 题 库 测量 的 属性 个 数 是 固定 且 已 知 的 ,但 在 CD-CAT 
的 持续 使 用 过 程 中 可 能 会 不 定时 的 往 题库 中 增加 新 的 属性 。 毫 无 疑问 , 各 在 线 标 
定 方法 的 性 能 会 随 新 属性 的 增加 而 有 所 波动 , 在 测验 测量 属性 个 数 随时 间 发 生变 
化 的 情况 下 如 何 提高 CD-CAT 中 已 有 O 矩阵 与 项 目 参数 同时 性 在 线 标定 方法 的 
性 能 是 研究 者 所 面临 的 一 大 挑战 。 另 外 ,研究 假设 测验 属性 间 相 互 独立 , 在 属性 
间 存 在 层级 关系 (如 ， 线 型 、 分 支 型 、 收 敛 型 等 ) 时 ， 各 在 线 标定 方法 的 性 能 如 何 
仍 有 待 于 探索 。 

第 五 ,本文 不 仅 在 模拟 题库 下 检验 了 各 在 线 标定 方法 的 性 能 ,还 进一步 在 真 
实 题 库 下 验证 了 SCADOCM 方法 的 性 能 ， 保 证 了 研究 的 生态 性 。 研 究 结果 表明 
SCADOCM 方法 的 标定 性 能 在 模拟 题库 和 真实 题库 下 均 较为 理想 ，SCADOCM 
方法 的 可 推广 性 较 好 ,可 以 为 实践 应 用 提供 一 定 的 指导 。 但 与 以 往 国内 外 项 目 参 
数 同 时 性 在 线 标定 方法 的 研究 (Chen et aL, 2015; Tan et aL, 2022; BEE, 辛 涛 ， 
2011b; HRA 等 , 2021) 一 致 ， 研 究 使 用 的 始终 是 Monte Carlo 模拟 方法 ， 并 未 
在 实证 研究 情境 中 加 以 应 用 , 评估 其 性 能 。 主 要 原因 在 于 : 在 真实 测验 情境 中 验 
证 在 线 标定 方法 的 性 能 , 需要 事先 构建 好 一 个 可 以 用 于 实际 测验 的 真实 CD-CAT 
测试 平台 , 这 需要 耗费 大 量 的 时 间 和 精力 , 目前 这 种 平台 较 难 获取 。 这 是 本 研究 ， 
甚至 于 目前 CD-CAT 中 在 线 标定 研究 的 不 足 之 处 ， 也 是 未 来 可 进一步 深入 的 研 


完 方 向 。 总 之 , CD-CAT 中 2 HERES THA BB SE PE CE ZR bro TIE OT CUT f 
进一步 深化 。 


7 结论 


研究 主要 结论 如 下 : 

(1) SCADOCM 有 具备 较 好 的 项 目标 定性 能 ， 优 于 SE 方法。 此外，SIE 的 Q 
矩阵 估计 精度 在 各 条 件 下 几乎 都 接近 于 0, 该 方法 不 适用 于 G-DINA 等 饱和 模型 。 

(2) 整体 而 言 ， SCADOCM 和 SIE 在 标定 样本 大 、 项 目 质量 高 、 属 性 掌握 模 
式 分 布 为 均匀 分 布 和 高 阶 分 布 时 的 项 目标 定 精 度 比 标定 样本 小 、 项目 质量 低 、 属 
性 掌握 模式 分 布 为 正 态 分 布 时 更 高 。 

(3) SCADOCM 在 标定 样本 少时 的 项 目标 定 效率 更 高 ， 项 目 质 量 和 属性 掌握 
模式 分 布 对 其 标定 效率 的 影响 较 小 。SIE 方法 在 标定 样本 少时 的 标定 效率 比 标定 
样本 大 时 更 高 , 在 属性 掌握 模式 分 布 为 均匀 分 布 和 高 阶 分 布 时 的 标定 效率 比 属性 
掌握 横 式 分 布 为 正 态 分 布 时 更 高 ， 其 标定 效率 受 项 目 质量 的 影响 较 小 。 
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Abstract 

Cognitive diagnostic computerized adaptive testing (CD-CAT) provides a detailed diagnosis 
of an examinee’s strengths and weaknesses in the content measured in a timely and accurate 
manner, which can be used as a reference for further study or remediation planning, thus meeting 
the practical need for efficient and detailed test results. The successful implementation of CD-CAT 
is based on an item bank, but its maintenance is a very challenging task. A psychometrically 
popular choice for maintaining an item bank is online calibration. Currently, the research on online 
calibration methods in the CD-CAT that can calibrate Q-matrix and item parameters 
simultaneously is very weak. The existing methods are basically developed based on the 
deterministic input, noisy and gate (DINA) model. Compared with the DINA model, the 
generalized DINA (G-DINA) model has been more widely applied because it is less restrictive and 
can meet the requirements of a large number of test data in psychological and educational 
assessment. Therefore, if the online calibration method that jointly calibrates the Q-matrix and 
item parameters can be developed for models with few constraints such as G-DINA, its meaning is 
understood without explanation. 

In current study, a new online calibration method, SCADOCM, was proposed, which was 
suitable for the G-DINA model. The construction of SCADOCM was based on the smoothly 
clipped absolute deviation penalty (SCAD) and marginalized maximum likelihood estimation 
(MMLE/EM) algorithm. For the new item j, the log-likelihood function with SCAD can be 
formulated based on the examinees’ responses in this item and the examinees’ attribute marginal 
mastery probability, and the q-vector of the new item can be estimated by the q-vector estimator 


based on SCAD. Then, the EM algorithm was used to estimate the item parameter of the new item 


j based on the posterior distributions of examinees' attribute patterns, the examinees' responses to 
new item j and the estimated q-vector. 

To examine the performance of the proposed SCADOCM and compare it with the SIE 
method, two simulation studies (Study 1 and Study 2) are conducted. Study 1 is based on a 
simulated item bank while Study 2 is based on the real item bank (Internet addiction item bank; 
Shi, 2017). In these simulation studies, four factors were manipulated: the calibration sample size 
(nj = 50 vs. 100 vs. 500 vs. 1000 vs. 2000), the distribution of the attribute pattern (uniform 
distribution vs. high-order distribution vs. normal distribution), the item quality (U (0.05, 0.15) vs. 
U (0.1, 0.3)), and the online calibration methods (SCADOCM vs. SIE). The results showed that (1) 
SCADOCM has satisfactory calibration accuracy and calibration efficiency, and is superior to the 
SIE method. In addition, the traditional SIE method is not applicable for the G-DINA model, and 
its Q-matrix estimation accuracy rate is low under all experimental conditions. (2) The item 
calibration accuracy of SCADOCM and SIE increases with the increase of calibration sample and 
item quality under most conditions, and its item calibration accuracy in the uniform 
distribution/higher-order distribution is greater than that in the normal distribution. (3) The 
calibration efficiency of SCADOCM decreases with the increase of calibration samples, but it is 
less affected by the item quality and the attribute pattern distribution; the calibration efficiency of 
SIE decreases with the increase of calibration samples, but it is less affected by the item quality. 
Moreover, the calibration efficiency of the SIE method in the normal distribution is slightly slower 
than that of uniform distribution/high-order distribution. 

To sum up the results, this study demonstrated that the SCADOCM has higher item 
calibration accuracy and calibration efficiency, and outperforms the SIE method; meanwhile, the 
traditional SIE method is not suitable for G-DINA model. All in all, this study provides an 
efficient and accurate method for item calibration in CD-CAT, and provides important support for 
further promoting the application of CD-CAT in practice. 

Key words: Cognitive Diagnostic Computerized Adaptive Testing, Online Calibration, 


Q-matrix, G-DINA model, SCAD Penalty 


附录 2 E E HI SB 


bod 2 aN Ia je 2 A Ze Aue wd EAs, HERP PO), PA) P(00). PAOS 
P(01). P(11). P(000), P(100), P(010). P(001). P(110). P(101) ~ POIDA P(111) 
表示 缩减 属性 掌握 模式 ( 若 题 目测 量 9 个 属性 中 的 前 2 个 属性 


q; — (1, 1, 0,0,0, 0, 0,0,0) , 缩 减 属 性 掌 握 模 式 为 


m 
pui 


o; = ((0, 0),(1, 0),(0, D,0, 1))”) 下 被 试 的 正确 作答 概率 。 如, POR P(1) 分 别 表 
示 题 目测 量 9 个 属性 中 的 某 1 个 属性 时 , 未 掌握 该 属性 的 被 试 的 正确 作答 概率 和 
掌握 该 属性 的 被 试 的 正确 作答 概率 ; P(10) 表 示 题 目测 量 9 个 属性 中 的 某 2 个 属 
性 时 , 掌握 2 个 属性 中 的 第 1 个 属性 但 未 掌握 第 2 个 属性 的 被 试 的 正确 作答 概率 ; 
P(011) 表 示 题 目测 量 9 个 属性 中 的 某 3 个 属性 时 ， 掌 握 3 个 属性 中 的 第 2 个 和 第 
3 个 属性 但 未 掌握 第 1 个 属性 的 被 试 的 正确 作答 概率 。 

附 表 1 题库 项 目 参 数值 


EE 


题写 P(0) P(1) 题 号 P(0) P(1) 题 号 P(0) P(1) 
1 0.298 0.563 74 0.191 0.745 147 0.096 0.711 
F 0.132 0.5 75 0.019 0.5 148 0.062 0.675 
3 0.072 0.5 76 0.072 0.569 149 0.009 0.5 
4 0.046 0.5 77 0.011 0.5 150 0.021 0.606 
5 0.188 0.54 78 0.014 0.5 151 0.071 0.589 
6 0.125 0.558 79 0.045 0.5 152 0.038 0.615 
7 0.175 0.544 80 0.019 0.5 153 0.048 0.532 
8 0.174 0.62 81 0.022 0.5 154 0.01 0.5 
9 0.164 0.642 82 0.006 0.5 155 0.025 0.5 
10 0.073 0.5 83 0.011 0.5 156 0.04 0.5 
11 0.49 0.763 84 0.07 | 0.629 157 0.009 0.61 
12 0.208 0.653 85 0.037 0.5 158 0.024 0.5 
13 0.026 0.5 86 0.014 0.5 159 0.041 0.533 
14 0.131 0.563 87 0.014 0.5 160 0.036 0.5 
15 0433 0772 88 0.05 0.631 161 0.04 0.5 
16 0.116 0.613 89 0.023 0.5 162 0.028 0.5 
17 0.318 . 0.635 90 0.01 0.5 163 0.024 0.544 
18 0.024 0.5 91 0.069 — 0.519 164 0.005 0.5 
19 0.017 0.5 92 0.038 0.5 165 0.055 0.5 
20 0.069 0.5 93 0.057 . 0.516 166 0.032 0.5 
21 0.068 0.5 94 0.192 0.661 167 0.037 0.507 


22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 


0.107 
0.17 
0.125 
0.173 
0.038 
0.193 
0.054 
0.102 
0.209 
0.383 
0.092 
0.029 
0.032 
0.277 
0.127 
0.123 
0.061 
0.05 
0.15 
0.032 
0.27 
0.062 
0.237 
0.063 
0.094 
0.117 
0.041 
0.262 
0.042 
0.064 
0.011 
0.028 
0.009 
0.067 
0.026 
0.026 
0.056 
0.094 
0.175 
0.099 
0.046 
0.077 
0.124 


0.5 
0.682 
0.668 
0.627 

0.5 

0.67 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 
0.773 

0.5 

0.5 
0.536 

0.5 
0.592 

0.5 
0.839 

0.5 

0.74 

0.5 

0.5 
0.623 

0.5 
0.697 

0.5 
0.522 

0.5 

0.5 

0.5 
0.568 

0.5 

0.5 

0.5 

0.68 
0.809 
0.512 
0.549 

0.72 
0.607 


95 

96 

97 

98 

99 

100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 


0.185 
0.109 
0.005 
0.051 
0.063 
0.037 
0.145 
0.067 
0.128 
0.061 
0.021 
0.026 
0.152 
0.014 
0.095 
0.028 
0.033 
0.127 
0.073 
0.018 
0.028 
0.022 
0.007 
0.04 
0.114 
0.05 
0.012 
0.043 
0.025 
0.051 
0.019 
0.035 
0.032 
0.079 
0.083 
0.052 
0.027 
0.025 
0.211 
0.051 
0.019 
0.02 
0.011 


0.639 
0.504 
0.5 
0.514 
0.577 
0.5 
0.5 
0.618 
0.53 
0.558 
0.5 
0.5 
0.5 
0.5 
0.66 
0.5 
0.549 
0.643 
0.5 
0.5 
0.5 
0.5 
0.5 
0.5 
0.5 
0.579 
0.5 
0.632 
0.514 
0.5 
0.5 
0.551 
0.5 
0.723 
0.674 
0.575 
0.627 
0.5 
0.617 
0.5 
0.5 
0.5 
0.5 


168 
169 
170 
171 
172 
173 
174 
175 
176 
177 
178 
179 
180 
181 
182 
183 
184 
185 
186 
187 
188 
189 
190 
191 
192 
193 
194 
195 
196 
197 
198 
199 
200 
201 
202 
203 
204 
205 
206 
207 
208 
209 
210 


0.008 
0.014 
0.139 
0.082 
0.012 
0.02 
0.042 
0.012 
0.017 
0.039 
0.042 
0.035 
0.042 
0.012 
0.008 
0.014 
0.013 
0.06 
0.073 
0.072 
0.026 
0.018 
0.028 
0.014 
0.015 
0.041 
0.009 
0.033 
0.099 
0.013 
0.023 
0.026 
0.005 
0.011 
0.039 
0.071 
0.051 
0.21 
0.009 
0.056 
0.045 
0.034 
0.018 


0.5 
0.574 
0.661 
0.592 
0.579 
0.553 
0.648 
0.592 

0.5 

0.5 

0.5 

0.53 
0.517 
0.519 

0.5 

0.5 
0.568 

0.5 
0.574 
0.613 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 
0.659 

0.5 

0.5 

0.5 
0.532 

0.5 

0.52 
0.524 
0.5 
0.64 
0.5 
0.59 

0.5 

0.5 

0.5 


0.066 
0.061 
0.012 
0.189 
0.026 
0.172 
0.046 
0.012 
0.5 
P(00) 
0.289 
0.161 
0.151 
0.134 
0.055 
0.036 
0.013 
0.181 
0.067 
0.048 
0.055 
0.011 
0.088 
0.045 
0.013 
0.022 
0.007 
0.034 
0.019 
0.012 
0.015 
0.032 
0.219 
0.006 
0.008 
0.01 
0.015 
0.06 
0.004 
0.007 
0.005 
0.009 


0.5 
0.5 
0.5 

0.697 
0.5 

0.679 

0.621 
0.5 

0.76 

P(10) 

0.435 
0.4 

0.576 

0.445 

0.255 

0.187 

0.118 

0.51 
0.344 
0.143 

0.24 

0.093 

0.202 

0.104 

0.093 

0.178 

0.028 

0.168 

0.13 

0.072 

0.054 

0.319 

0.494 

0.021 

0.074 

0.072 

0.196 

0.191 

0.128 

0.167 

0.039 

0.216 


0.01 
0.087 
0.038 

0.02 
0.059 
0.007 
0.019 
0.029 
0.064 
P(11) 
0.525 
0.575 
0.611 
0.729 
0.508 

0.5 
0.5 
0.644 
0.561 
0.5 
0.5 
0.504 
0.649 
0.583 
0.5 
0.5 
0.5 
0.536 
0.588 
0.5 
0.52 
0.5 
0.5 
0.5 
0.5 
0.5 
0.612 
0.652 
0.5 
0.546 
0.568 
0.533 


0.5 
0.677 
0.616 

0.5 
0.635 

0.5 

0.5 
0.603 
0.628 


211 
212 
213 
214 
215 
216 
217 


0.037 
0.135 
0.025 
0.018 
0.018 
0.058 
0.029 


0.5 
0.612 
0.5 
0.5 
0.5 
0.5 
0.5 


0.016 
0.008 
0.011 
0.012 
0.42 
0.038 
0.039 
0.016 
0.016 
P(000) 
0.116 
0.01 
0.036 
0.031 
0.009 


0.114 
0.151 
0.137 
0.08 
0.428 
0.131 
0.39 
0.076 
0.069 
P(100) 
0.602 
0.072 
0.285 
0.254 
0 


0.335 
0.021 
0.072 
0.125 
0.414 
0.372 
0.213 
0.229 
0.233 

P(010) 
0.325 

0.11 
0.252 

0.17 
0.019 


0.621 
0.5 
0.5 
0.5 
0.5 

0.576 
0.611 
0.546 
0.542 
P(001) 
0.326 
0 
0.575 
0.515 
0.037 


P(110) 
0.482 
0.167 
0.376 
0.148 
0.065 


P(101) 
0.345 
0.12 
0.38 
0.262 
0.162 


P(011) 
0.34 
0.121 
0.322 
0.486 
0.147 


P111) 
0.62 
0.5 
0.639 
0.604 
0.5 


